数据挖掘概念与技术(什么是数据挖掘,有哪些应用?终于有人讲明白了)

导读:数据获取和存储技术的快速发展,加上数据生成和传播的便利性,导致了数据的爆炸式增长,最终形成了现在的大数据时代。围绕这些数据集进行可行的深入分析对于几乎所有社会领域的决策都变得越来越重要:商业和工业、科学和工程、医学和生物技术以及政府和个人。

但是数据收集和处理的数量(体积)、复杂度(多样性)和速率(速度)太大,人类无法独立分析。因此,尽管大数据的规模和多样性给数据分析带来了挑战,但仍然需要自动化工具从大数据中提取有用的信息。

数据挖掘将传统的数据分析方法与处理大量数据的复杂算法结合起来。本文将介绍数据挖掘的概况。

作者:陈庞-谭宁,迈克尔·斯坦巴克等。

如需转载,请联系华章科技



01 数据挖掘及高级数据分析技术的应用

1。工商业

借助POS(销售点)数据收集技术(条形码扫描仪、射频识别(RFID)和智能卡技术),零售商可以收集顾客在商店收银台购物的最新数据。零售商可以利用这些信息,以及电子商务网站的日志、客户服务中心的客户服务记录和其他重要的商业数据,更好地了解客户的需求,做出更明智的商业决策。

数据挖掘技术可用于支持广泛的商业智能应用,如客户分析、目标营销、工作流管理、商店分销、欺诈检测和自动购买和销售。最近的一个应用是快速股票交易,需要利用相关的金融交易数据,在不到一秒的时间内做出买卖决策。

数据挖掘还可以帮助零售商回答一些重要的商业问题,比如:“谁是最有价值的客户?”"什么产品可以交叉销售或促销?""公司明年的收入前景如何?"这些问题推动了关联分析等数据挖掘技术的发展。

随着互联网不断改变我们日常生活中的交互和决策方式,它可以产生大量的在线体验数据,如网页浏览、信息传输和在社交网站上发布信息,这为使用Web数据的商业应用提供了机会。

例如,在电子商务领域,用户的在线浏览或购物偏好数据可用于推荐个性化产品。数据挖掘技术在支持其他基于互联网的服务方面也发挥着重要作用,例如过滤垃圾邮件、回答搜索查询以及建议社交圈更新和联系人。

互联网上大量的文本、图像、视频,使得数据挖掘方法有了很多进步,比如深度学习。这些发展促进了许多应用领域的进步,如目标识别、自然语言翻译和自动驾驶。

另一个正在经历大数据快速转型的应用领域是移动传感器和移动设备的使用,如智能手机和可穿戴计算设备。有了更好的传感器技术,嵌入互联日常设备中的低成本传感器(称为物联网(IOT))可以用来收集物理世界的各种信息。

在数字系统中,物理传感器的深度融合正开始产生大量与环境相关的多样化、分布式数据,可用于设计便捷、安全、节能的家居系统,规划智慧城市。



2。医学、科学和工程

医学、科学和工程领域的研究人员正在快速收集大量数据,这些数据对于获得有价值的新发现非常重要。例如,为了更深入地了解地球的气候系统,美国宇航局部署了一系列地球轨道卫星,持续收集地表、海洋和大气的全球观测数据。

然而,由于这些数据集的规模和时间空特性,传统方法往往不适合分析这些数据集。数据挖掘发展的技术可以帮助地球科学家回答以下问题:“干旱、飓风等生态系统扰动的频率和强度与全球变暖之间有什么关系?”"海洋表面温度对表面降水和温度有什么影响?""如何准确预测一个地区生长季节的开始和结束?"

再比如,分子生物学研究人员希望利用目前收集的大量基因组数据,更好地了解基因的结构和功能。过去,传统方法只允许科学家在一次一个实验中研究少量基因。微阵列技术的最新突破使科学家能够在许多情况下比较成千上万个基因的特征。

这种比较有助于确定每个基因的功能,有可能找出导致特定疾病的基因。然而,由于数据的噪声和高维性,需要新的数据分析方法。除了分析基因序列数据,数据挖掘还可以用于处理其他生物学问题,如蛋白质结构预测、多序列校准、生化路径建模和系统发育等。

另一个例子是使用数据挖掘技术来分析越来越多的电子健康记录(EHR)数据。不久前,对患者的研究需要人工检查每个患者的身体记录,并提取与所研究的特定问题相关的特定信息。EHR允许更快和更广泛地探索这些数据。

然而,患者只能在看病或住院时被观察,并且在任何具体的就诊过程中,只能测量关于患者健康的一些细节,因此存在很大的挑战。

目前,EHR分析侧重于简单类型的数据,如患者的血压或某种疾病的诊断代码。然而,也收集了许多类型的更复杂的医学数据,例如心电图(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神经元图像。

尽管分析这些数据具有挑战性,但它们包含了患者的重要信息。将这些数据与传统的EHR和基因组数据进行整合和分析,是实现精准医疗所需的功能之一,旨在提供更个性化的患者护理。



02 什么是数据挖掘

数据挖掘是在大型数据库中自动寻找有用信息的过程。数据挖掘技术用于探索大型数据库,发现以前未知的有用模式。数据挖掘还可以预测未来的观察结果,比如顾客在网上或者实体店的消费金额。

并非所有的信息发现任务都被视为数据挖掘。例如,查询任务:在数据库中查找单个记录,或者查找带有特定关键字的网页。这是因为这些任务可以通过与数据库管理系统或信息检索系统的简单交互来完成。这些系统主要依靠传统的计算机科学技术,包括先进高效的索引结构和查询处理算法,从大型数据仓库中有效地组织和检索信息。

然而,数据挖掘技术可以根据搜索结果和输入查询之间的相关性来提高搜索结果的质量,因此被用来提高这些系统的性能。

  • 数据库中的数据挖掘和知识发现
  • 数据挖掘是数据库中知识发现 (KDD)不可或缺的一部分,KDD是将未加工的数据转化为有用信息的全过程,如图1所示。这个过程包括一系列转换步骤,从数据预处理到数据挖掘结果的后处理。



    ▲图1数据库中的知识发现(KDD)过程

    输入数据可以以各种形式存储(平面文件、电子表格或关系表),并且可以存储在中央数据库中或分布在多个数据站点上。预处理(预处理)的目的是将原始输入数据转换成适当的格式,以便于后续分析。

    数据预处理涉及的步骤包括合并来自多个数据源的数据、清理数据以消除噪声和重复观察值,以及选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式有很多种,数据预处理可能是整个知识发现过程中最费力、最耗时的一步。

    闭环通常是指将数据挖掘结果集成到决策支持系统中的过程。例如,在商业应用中,可以将数据挖掘结果揭示的规则与商业活动管理工具相结合,开展或测试有效的商品促销活动。

    这种组合需要后处理(后处理)步骤,以确保只有那些有效和有用的结果被集成到决策支持系统中。后处理的一个例子是可视化,它使数据分析师能够从不同的角度探索数据和数据挖掘结果。在后处理阶段,还可以使用统计方法或假设检验来删除错误的数据挖掘结果。

    03 数据挖掘要解决的问题

    如前所述,当面临大数据应用带来的挑战时,传统的数据分析技术往往会遇到实际困难。以下是一些具体的问题,这些问题导致了人们对数据挖掘的研究。

    1。可伸缩

    随着数据生成和获取技术的发展,以TB、PB甚至EB为单位的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集,算法必须是可伸缩的。许多数据挖掘算法使用特殊的搜索策略来处理指数搜索问题。为了实现可伸缩性,可能需要新的数据结构来以有效的方式访问每个记录。

    例如,当要处理的数据无法放入内存时,可能需要一个核外算法。使用采样技术或开发并行和分布式算法也可以提高可伸缩性。

    2。高维度

    现在,我们经常会遇到有几十万个属性的数据集,而不是几十年前常见的只有几个属性的数据集。在生物信息学领域,微阵列技术的进步产生了涉及数千种特征的基因表达数据。具有时间成分或空之间的成分的数据集通常具有较高的维度。

    数据挖掘有哪些技术

    例如,考虑包含不同区域温度测量结果的数据集,如果长时间重复测量,则(特征数)的增长与测量次数成正比。传统的针对低维数据开发的数据分析技术并不能很好的处理这类高维数据,比如维灾问题。另外,对于一些数据分析算法,随着维数(特征数)的增加,计算复杂度会迅速增加。



    3。异构数据和复杂数据

    通常,传统的数据分析方法只处理具有相同类型属性的数据集,无论是连续的还是分类的。随着数据挖掘在商业、科学、医学等领域中的作用越来越大,越来越需要能够处理异构属性的技术。

    近年来出现了更复杂的数据对象。此类非常规类型的数据包括:包含文本、超链接、图像、音频和视频的Web和社交媒体数据,具有序列和三维结构的DNA数据,以及由测量值(温度、压力等)组成的气候数据。)在地球表面的不同位置和时间。

    为挖掘这种复杂对象而开发的技术应该考虑数据中的关系,例如时间和空之间的自相关、图的连通性以及半结构化文本和XML文档中元素之间的父子关系。

    4。数据的所有权和分配

    有时,要分析的数据不仅存储在一个站点或属于一个组织,而且在地理上分布在属于多个组织的数据源中。这就需要发展分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:

  • 如何减少执行分布式计算所需的流量?
  • 如何有效统一从多个数据源获得的数据挖掘结果?
  • 如何解决数据安全和隐私问题?
  • 5。非传统分析

    传统的统计方法是基于一种假设检验模型,即提出一个假设,设计实验收集数据,然后根据假设对数据进行分析。但是,这个过程是费力费时的。目前,数据分析的任务往往需要生成和评估成千上万的假设,因此需要自动生成和评估假设,这促使人们开发一些数据挖掘技术。

    此外,数据挖掘分析的数据集通常不是精心设计的实验结果,它们通常代表数据的机会样本,而不是随机样本。

    04 数据挖掘与其他领域的关联

    其他领域也起着重要的辅助作用。特别是,数据库系统需要提供有效的存储、索引和查询处理。源自高性能(并行)计算的技术在处理海量数据集时往往非常重要。分布式技术还可以帮助处理大量数据,当数据不能一起处理时,这一点尤其重要。图2显示了数据挖掘和其他领域之间的关系。




    ▲图2数据挖掘汇集了众多学科的知识。

    作者简介:陈庞-谭宁,密歇根州立大学计算机科学与工程系教授,主要研究方向为数据挖掘、数据库系统、网络空安全、网络分析等。

    本文摘自《数据挖掘导论》(原书第2版),由出版社授权出版。



    阅读数据挖掘入门(原书第二版)

    推荐词:本书是斯坦福大学、密歇根州立大学、明尼苏达大学、德克萨斯大学等著名大学的数据挖掘课程教材。本文从算法的角度介绍了数据挖掘的主要原理和技术。涵盖的主题包括:数据预处理,预测建模,关联分析,聚类分析,异常检测和错误检测避免。通过介绍每个主题的基本概念和算法,为读者提供了将数据挖掘应用于实际问题的必要背景和方法。



    阅读“计算机时代的统计推断”

    推荐词:[/s2/]统计推断经典导论,斯坦福大学著名教授特雷弗·哈斯蒂的新作。本书以丰富的案例介绍了统计推断在计算机时代的发展,从理论角度分析了统计推断的各种算法和证据,揭示了统计推断如何推动大数据、数据科学、机器学习等领域的快速发展并引领数据分析的变革,最后展望了统计学和数据科学的未来方向。



    长二维码查找更多好书。

    您可以还会对下面的文章感兴趣

    使用微信扫描二维码后

    点击右上角发送给好友