数据挖掘的技术(数据挖掘的技术有很多种,常用的数据挖掘技术就这13种)

数据挖掘是从大量不完整的、有噪声的、模糊的、随机的、人们事先不知道但有潜在用途的数据中提取隐藏的信息和知识的过程。数据挖掘的任务是从数据集中发现模式。可以发现的模式有很多,按照功能可以分为两类:预测型模式和描述型模式。在应用中,通常根据模式的实际功能分为以下几类:分类、赋值、预测、相关分析、时间序列、描述和可视化等。



数据挖掘涉及很多学科和技术,分类也很多。根据挖掘任务可以分为分类或预测模型发现、数据汇总、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。根据挖掘对象,有关系数据库、面向对象数据库、空中间数据库、时态数据库、文本数据源、多媒体数据库、异构数据库、遗产数据库和万维网。根据挖掘方法,大致可以分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习可以细分为归纳学习方法(决策树、规则归纳等。),基于案例的学习,遗传算法等。统计方法可以细分为:回归分析(多元回归、自回归等。)、判别分析(贝叶斯判别、Fisher判别、非参数判别等。)、聚类分析(系统聚类、动态聚类等。)、探索性分析(主成分分析、相关分析等。),等等。神经网络方法可细分为:前向神经网络(BP算法等。)、自组织神经网络(自组织特征映射、竞争学习等。),等等。数据库方法主要是多维数据分析或OLAP方法,也有面向属性的归纳方法等等。

数据挖掘的技术有很多,根据不同的分类有不同的分类。下面重点介绍数据挖掘中的一些常用技术:统计学、关联规则、基于历史的分析、遗传算法、聚集检测、连接分析、决策树、神经网络、粗糙集、模糊集、回归分析、差异分析、概念描述等。

1。统计技术

数据挖掘涉及许多科学领域和技术,如统计技术。统计技术挖掘数据集的主要思想是统计方法对给定的数据集假设一个分布或概率模型(如正态分布),然后根据模型采取相应的方法进行挖掘。

2。关联规则

数据关联是数据库中一种重要的知识。如果两个或两个以上变量的值有某种规律性,就叫相关性。联想可分为简单联想、时间序列联想和因果联想。关联分析的目的是找出数据库中隐藏的关联网络。有时候你不知道数据库中数据的关联函数,即使知道也是不确定的,所以关联分析产生的规则具有可信度。

3。基于历史的MBR(基于记忆的推理)分析

首先根据经验知识寻找相似的情况,然后将这些情况的信息应用到当前的例子中。这是MBR(基于记忆的推理)的精髓。MBR首先寻找与新记录相似的邻居,然后使用这些邻居对新数据进行分类和估计。使用MBR主要有三个问题:找到一定的历史数据;确定表示历史数据的最有效方式;确定距离函数、联合函数和邻居的数量。

4。遗传算法GA(遗传算法)

优化技术基于进化理论,采用遗传组合、遗传变异和自然选择的设计方法。主要思想是:按照优胜劣汰的原则,形成一个由当前群体中最适合的规则组成的新群体,以及这些规则的后代。通常,规则的适合度用于评估训练样本集的分类准确度。

5。聚合检测

将一组物理或抽象对象分成由相似对象组成的多个类的过程称为聚类。聚类产生的簇是数据对象的集合,这些数据对象与同一个簇中的数据对象相似,而与其他簇中的数据对象不同。相异度是根据描述对象的属性值来计算的,距离是一种常用的度量方法。

6。连接分析

连接分析,链接分析,它的基础理论是图论。图论的思想是找到一个能得到好结果但不是完美结果的算法,而不是能找到完美解的算法。联系是这样一种思想的应用:如果不完美的结果是可行的,那么这样的分析就是好的分析。使用连接分析,可以从一些用户的行为中分离出一些模式。同时,产生的概念应用于更广泛的用户群。

7。决策树

决策树提供了一种显示规则的方式,比如在什么条件下会获得什么值。

8。神经网络

从结构上讲,神经网络可以分为输入层、输出层和隐含层。输入与层的每个节点对应的预测变量。对应于目标变量的输出层可以有多个节点。在输入层和输出层之间是一个隐藏层(对神经网络的用户来说是不可见的)。隐藏层的数量和每层中的节点数量决定了神经网络的复杂性。

除了输入层的节点外,神经网络的每个节点都与它前面的许多节点(称为该节点的输入节点)相连接,每个连接对应一个权重Wxy。该节点的值是通过将它的所有输入节点的值和相应的连接权重的乘积之和作为函数的输入来获得的。我们称这个函数为活度函数或压缩函数。

9。粗糙集

粗糙集理论是基于在给定的训练数据中建立等价类。构成等价类的所有数据样本都是无差别的,即它们等价于描述数据的属性。给定真实世界的数据,通常一些类不能通过可用属性来区分。粗糙集是用来近似或粗略定义这类的。

10,模糊集

模糊集理论将模糊逻辑引入数据挖掘分类系统,允许定义“模糊”的域值或边界。模糊逻辑使用0.0到1.0之间的真值表来显示特定值是给定成员的程度,而不是类或集合的精确截断。模糊逻辑为高抽象层次的处理提供了方便。

十一。回归分析

回归分析分为线性回归、多元回归和非线性回归。在线性回归中,数据用直线建模,多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型中加入多项式项,形成非线性同名模型。

数据挖掘有哪些技术

12。差异分析

差异分析的目的是试图发现异常数据,如噪音数据和欺诈数据,从而获得有用的信息。

十三。概念描述

概念描述是描述一个对象的内涵,概括其相关特征。概念描述分为特征描述和特色描述。前者描述了一个类对象的共同特征,后者描述了不同类对象之间的差异。生成一个类的特征描述只涉及类对象中所有对象的共性。

由于人们迫切需要将数据库和其他信息库中存在的数据转化为有用的知识,数据挖掘被认为是一个新的、非常重要的研究领域,具有广阔的应用前景和挑战,应该由许多学科(如数据库、人工智能、统计学、数据仓库、联机分析处理、专家系统、数据可视化、机器学习、信息检索、神经网络、模式识别、高性能计算机等)的研究人员进行研究。).

数据挖掘作为一门新兴学科,是由上述学科的交叉和融合而形成的。随着数据挖掘的进一步发展,它必将给用户带来更大的好处。

在不久的将来,多元智能时代一定会彻底进入我们的生活。有志于进入未来前沿行业的朋友可以收藏多元智能时代,及时获取人工智能、大数据、云计算、物联网的前沿信息和基础知识。让我们携手引领人工智能的未来。

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友