一个优秀的数据分析师不仅要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具和技能,还要掌握一些数据挖掘的思路,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。
数据挖掘算法的分类
1.连接分析:PageRank。
2.相关分析:先验。
3.分类算法:C4.5,简单贝叶斯,SVM,KNN,Adaboost,CART。
4.聚类算法:K均值,EM。
I PageRank
论文被引用次数越多,影响力越大。
入口越多,链接质量越高,网页质量越高。
PageRank原则
网页影响力=阻尼影响力+所有链接集合页面的加权影响力之和。
一个页面的影响力:所有进入链的页面的加权影响力之和。
一个页面对其他页面的影响力是:自身影响力/链接数。
并非所有用户都通过跳转链接访问互联网,但也有其他方式,如直接输入网站。
所以需要设置一个阻尼因子,阻尼因子代表用户根据跳转链接上网的概率。
PageRank隐喻
1.微博
一个人在微博的粉丝数量不一定等于他的实际影响力,还取决于粉丝的质量。
如果是僵尸粉,那就不行,但是如果是很多大V或者明星的关注,那影响就大了。
2.存储操作
顾客多的店质量更好,但要看顾客是否委托。
3.兴趣
对自己感兴趣的人或事投入相对更多的时间,也对与之相关的人和事投入一定的时间。关注的人或事越多,影响力/受众就越大。
关于阻尼系数
1.通过邻居的影响力来判断你的影响力,但是如果你不能通过邻居来拜访你,不代表你没有影响力,因为你可以直接来拜访你,所以引入了阻尼因子的概念。
2.除了河流,海洋里也有雨,但雨是随机的。
3.提出阻尼系数,或者解决问题。有些网站明明有大量的外链,但是影响力很大。
外链例子:hao123导航页,外链多,内链少。
链式入口的例子:百度、谷歌等搜索引擎,链式入口很多,链式出口很少。
二。先验(相关分析)
挖掘关联关系,从消费者交易记录中发现商品之间的关系。
先验原则
1.支持
一个组合出现的次数与总次数的比率。
五次购买,四次购买牛奶,牛奶支持4/5=0.8。
五次购买,三次购买牛奶和面包,牛奶和面包支持3/5=0.6。
2.信心
购买商品A和B的概率是多少,A发生时B的概率是多少?
买了四次牛奶,其中两次买了啤酒。(牛奶->:啤酒的可靠度)是2/4=0.5。
买三次啤酒,包括两次牛奶,(啤酒->:牛奶的可靠度是2/3-0.67。
3.晋升程度
衡量商品A的外观,提高商品b的概率。
提升度(a->: B)=信心度(a->: B)/支持度(B)。
提升程度>:1、有提升;仰角=1,无变化;上升1度,下降。
4.频繁项目集
商品:可以是单一商品,也可以是商品组合。
频繁项集是支持度大于最小支持度(MinSupport)的项集。
计算过程
(1)从K=1开始,经常过滤项目集。
(2)在结果中,组合K+1个项目集并重新过滤。
(3)循环1和2步骤。K-1项集的结果就是最终结果,直到找不到结果为止。
扩展:FP-Growth算法。
Apriori算法需要多次扫描数据库,性能较低,不适合大数据量。
FP-growth算法,通过构造FP树的数据结构,将数据存储在FP树中,构造FP树时只需要扫描数据库两次,后续处理不需要再次访问数据库。
比喻:啤酒和尿布一起卖。
通过对沃尔玛的数据分析发现,在有婴儿的美国家庭中,母亲通常在家照顾孩子,父亲去超市买纸尿裤。
父亲买纸尿裤的时候,经常奖励自己几瓶啤酒。因此,超市尝试推出将啤酒和纸尿裤放在一起的促销方式,实际上大大提高了纸尿裤和啤酒的销量。
三。数据挖掘算法:AdaBoost
AdaBoost原理
简单来说,就是把多个弱分类器训练成强分类器。
用一系列弱分类器作为不同权重比组合的最终分类选择。
计算过程
1.基本重量初始化。
2.奖励权重矩阵,计算现有分类器的错误率,选择错误率最低的分类器。
3.通过分类器权重公式,减少正确样本分布,增加错误样本分布,得到新的权重矩阵和当前K轮分类器权重。
4.将新的权重矩阵带入上述步骤2和3,并重新计算权重矩阵。
5.迭代N轮,记录每轮最终分类器的权重,得到一个强分类器。
AdaBoost算法的隐喻
1.利用错题提高学习效率。
做对题,反正下次少做。
下次多做错题,重点在错题上。
随着学习的深入,错题会越来越少。
2.利润的合理跨境增长
苹果,软件和硬件的结合,占据了手机市场的大部分利润,两个领域的知识结合产生了新的效益。
四。数据挖掘算法:C4.5(决策树)
决策意味着对一个问题有多个答案,选择答案的过程就是决策。
C4.5算法用于生成决策树,主要用于分类。
C4.5计算信息增益率(ID3算法计算信息增益)。
c 4.5算法原理
C4.5算法选择最有效的方法对样本集进行拆分,拆分规则是分析所有属性的信息增益率。
信息增益率越大,该特征的分类能力越强。我们应该优先考虑这个特征进行分类。
比喻:摘西瓜。
拿到西瓜,先判断它的纹路。如果含糊不清,就不是好瓜。如果很清楚,那就是好瓜。如果有点模糊,就考虑它的密度。如果密度大于一定值,则认为是好瓜,否则就是坏瓜。
五、数据挖掘算法:CART(决策树)
Cart:分类回归树,中文叫分类回归树,可以分类,也可以回归。
什么是分类树?回到树上?
分类:处理离散数据,即数据类型有限的数据,输出样本类别。
回归树:可以预测连续值并输出一个值,在一定范围内可以得到该值。
回归问题和分类问题的本质是一样的,就是对一个输入做一个输出预测,区别在于输出变量的类型。
购物车算法原理
购物车分类树
类似于C4.5算法,但是属性选择的指标是基尼系数。
基尼系数反映了样本的不确定性。基尼系数越小,样本间的差异越小,不确定性越低。
分类是一个减少不确定性的过程。CART在构建分类树时会选择基尼系数最小的属性作为属性划分。
回归树的车
基于均方误差或绝对值误差,选择具有最小均方误差或绝对值误差的特征。
以及分类和回归数的隐喻解释。
分类:预报明天是阴天、晴天还是雨天。
回归:预测明天的温度。
六。数据挖掘算法:简单贝叶斯(条件概率)
简单贝叶斯是一种简单有效的分类算法。当未知物体出现时,计算每个类别的概率,选择概率最高的类别。
假设输入的不同特征是独立的。基于概率论原理,P(A | b)由先验概率P(A)、P(B)和条件概率计算得出。
P(A):先验概率,即在B事件发生之前判断A事件的概率。
P(B|A):条件概率,在另一个事件A已经发生的情况下,事件B发生的概率。
P(A|B):后验概率,即B事件发生后重新评估A事件的概率。
比喻:给病人分类。
给一个新病人,一个打喷嚏的建筑工人,计算他感冒的概率。
SVM:支持向量机(SupportVectorMachine),中文称为支持向量机,是一种常用的分类方法。它最初是为二进制分类问题设计的。在机器学习中,SVM是一种监督学习模式。
什么是监督学习和无监督学习?
监控:即用现有的类别标签对样本数据进行分类。
无监督学习:即在没有类别标签的情况下,将样本数据按照一定的方法进行分类,即聚类。已分类的类别需要进一步分析才能知道每个类别的特征。
SVM算法原理
找到具有最小间隔的样本点,然后将距离拟合到这些样本点和最大线段/平面。
硬区间:数据线性分布,直接给出分类。
软区间:允许一定量的样本分类误差。
内核:非线性分布的数据映射到线性分布的数据。
SVM算法隐喻描述
1.分开桌上一堆红球和篮球。
桌子上的红色球和蓝色球被一条线分成两部分。
2.把盒子里的一堆红球和篮球分开。
盒子里的红球和蓝球被平面分成两部分。
八。数据挖掘算法:KNN(聚类)
机器学习算法中最基本最简单的算法之一,可以通过测量不同特征值之间的距离来进行分类。
KNN算法原理
计算待分类对象与其他对象的距离,预测K个最近邻数最多的类别为该分类对象的类别。
计算步骤。
1.根据场景选择距离计算方法,计算待分类对象与其他对象之间的距离。
2.计算最近的K个邻居。
3.对于K的最近邻,预测最多的类别作为分类对象的类别。
KNN算法比喻:近朱者赤,近墨,黑。
九。数据挖掘算法:K-Means
K-Means是一种用于无监督学习和生成指定K类的聚类算法,它将每个对象分配到最近的聚类中心。
1.随机选取k个点作为分类中心点。
2.将每个点分配到最近的类,从而形成K类。
3.重新计算每个类别的中心点。比如同一类别有10个点,那么新的中心点就是这10个点的中心点,一个简单的方法就是取平均值。
K-Means算法的隐喻解释
1.选择团队领导
大家随机抽取k个组长,谁近谁就是排队的人(算算距离,近的人凑在一起)。
随着时间的推移,组长的位置发生变化(根据算法重新计算中心点),直到选出真正的组长(重复进行,直到准确率最高)。
2.Kmeans和Knn的区别
Kmeans开始上课选领队,运气转,直到选出最好的中锋领队。
Knn的弟弟加入了队伍,更接近那个阶层,也就是那个阶层。
十、数据挖掘算法:EM(聚类)
EM的英文是ExpectationMaximization,所以EM算法也叫最大期望算法,也是一种聚类算法。
EM和K-Means的区别在于:
EM是计算概率,KMeans是计算距离。
EM属于软聚类,同一个样本可能属于多个类别;K-Means属于硬聚类,一个样本只能属于一个类别。因此,前者可以发现一些隐藏的数据。
EM算法原理
先估算一个概率较大的可能参数,然后根据数据不断调整,直到找到最终的确认参数。
EM算法隐喻描述:蔬菜称重
很少有人称菜然后算一半重量平分。
大多数人的方法是:
1.先分一部分到菜a,再分剩下的到菜B..
2.观察A菜和B菜的菜数是否一样多,哪个多,就会连到少。
3.然后观察盘中的A和B是否一样多,重复直到重量没有变化。
其中,数据挖掘后,需要将收集到的有用数据可视化,以方便人们直观地感受到数据的变化和重要性。通常情况下,数据分析师会选择一些可视化辅助工具来帮助自己更好地完成数据分析,比如Excel、PPT、Xmind等基础可视化工具。但是对于企业来说,这些可视化工具提供的功能过于单一,不能很好的满足可视化效果。许多数据分析师会选择Smartbi作为可视化工具,它集成了数据挖掘、数据分析和数据可视化的功能。拖拽更方便,可以处理上亿的数据,有可视化效果更好的自助仪表盘,更能满足现代企业的报表需求。
这里已经简单介绍了十大算法。其实一般来说,常用的算法都已经打包入库了,只要new生成相应的模型。数据分析师不仅要学会如何收集有用的数据,还要对数据进行深入分析,为企业做出更有利的决策。选择可视化工具Smartbi可以有效提高数据分析师的工作效率。以上是结合个人经验和网上信息的一些体会,希望对你学习数据挖掘有所帮助。