最近有很多朋友问我:如何学习数据分析,数据分析岗位需要什么资质等等。四五年前,如果你是专业的,懂SQL和Python,找一个数据分析的职位是非常容易的!虽然大数据和数据挖掘还是很热,但是最近一两年供求关系发生了很大的变化,市场对数据分析岗位的需求越来越高!
数据分析岗位除了数据分析的基本技能,还要求你懂大数据、数据挖掘、算法、良好的数据敏感度等。(不同部门会略有差异)。面对越来越苛刻的工作要求,高效学习数据分析迫在眉睫!
今天我就根据自己的工作经验和面试经历(附资源链接)分享一下数据分析的学习路线。学习路线会由浅入深,“学习资料附后”,希望对你有帮助!更多内容,“建议关注和收藏!」
在网上看到很多教程。一上来就上了很多经典书籍,网站教程,甚至一些付费课程。
这些确实可以减少新手资源筛选的时间。
然而,对许多小白人来说,这个目标是缺失的。每一部分学会后能做什么,如何应用,是最大的问题。
所以不建议一开始就努力学习,尤其是业余时间的碎片化学习。
小白学习数据分析的路径可以分为两块:
学习数据分析的基本方法和工具
培养数据分析的思维和习惯。
第一部分:学习基础方法和工具第一步:选取数据集先找一个数据集,自己摸索。
工作或学习中尽量找现成的数据,比如
用户数据、销售数据、产品数据等等,因为这些数据与你的认知高度相关,可以让学习更有针对性。如果你没有这样的数据资源,也可以找一些网上公开的数据集,推荐几个我平时用的数据平台。
百度指数:百度旗下/基于百度网民行为数据的数据分享平台,支持查询需求图谱艾瑞:艾瑞旗下/支持查看更新的数据报告,主要研究网络媒体、电子商务、网络游戏等新经济领域。
UCI: 加州大学欧文分校开设的经典数据集,如果你不想花太多时间去寻找,强烈建议使用之前数据集中的数据。
中国统计信息网:国家统计局官方网站汇集了中国各级政府的大量国民经济和社会发展统计信息。
有了这些数据,我们可以进行一些初步的探索尝试。
清理数据很多时候我们得到的数据并不干净,存在
重复、缺失、异常值等问题。,需要清洗。只有处理好这些影响分析的数据,才能得到更准确的分析结果。数据清洗是指发现并纠正数据文件中可识别错误的最后一道程序,包括检查数据一致性、处理无效值和缺失值等。
比如类似这种最简单的数据监测,可能会因为设备原因,导致部分
数据监测不到,或者数据记录重复,数据监测无效等。,这需要数据预处理。
不同的情况应该用不同的方法处理。
比如不完整的数据,应该直接去掉这个数据还是用相邻的值来补全?这些都是需要考虑的问题。对于数据预处理,通常使用Pandas数据分析库。Pandas,python+data+analysis的组合缩写,是python中基于numpy和matplotlib的第三方数据分析库,与后两者共同构成python数据分析的基础工具包,享有“三剑客”之称。
需要掌握的知识点如下:选择:数据访问(标签、特定值、布尔索引等。)
缺失值处理:删除或填写缺失数据
重复值处理:重复值判断和删除
单元格和异常值处理:剔除不必要的空单元格和极值,剔除异常值。合并:符合各种逻辑关系的合并操作
分组:数据划分、单独函数执行和数据重组
刷新:快速生成数据透视表。
当然,你也可以选择使用
现成的数据清理工具,但建议初学者自己动手,并记住具体函数和公式的使用方法。网上有很多熊猫的教程,都比较简单。也可以直接参考熊猫运营的官方文件。
可视化数据在筛选出有用的数据后,就需要对数据进行“可视化”,即用可视化的图表来描述数据,而Excel是最常用的方法。比如我想分析项目A的系统进度,得到了这个数据Excel表格:
然后使用Excel将表格转换成简单的堆积柱形图:
然后用你学过的Excel的知识把这个图表绘制成更专业的甘特图:
注:甘特图是一种项目管理图,通过条形图显示项目的进度和情况。
通过这个甘特图,我可以清楚的知道项目A
目前的进度如何,还有哪些工作没做,做了哪些工作,进度是快是慢。详细教程见:如何用Excel绘制甘特图?
如果你也是Excel小白,先了解一些基本图表的用法,比如常见的
条形图、折线图(散点图)、扇形图等。。下面是一些工作中常用的数据分析图表:
做这些图并不难,网上也有很多可视化的数据分析工具。如果觉得Excel麻烦,也可以直接找模板数据,做了之后很容易上手。
主要是记住具体函数和公式的用法,多练习就好了。第二步:进行数据分析
虽然画几个图简单,但是远远不够。在画的过程中,
需要真的做一些思考。从这些可视化的图表中,可以发现哪些规律,并尝试输出一些简单的结论和报告。借助统计原理进行分析这个阶段可以看书了。这里推荐一本简单易学的统计学书籍
: 简单统计号称“文科生都能看得懂”的统计学书,读起来还是挺轻松的,可以一口气看完。“HeadFirst的书总是通俗易懂,生动形象,能对分析概念有全面的理解。”
这本书里的知识是常见的,是数据分析中必须掌握的,比如
基础统计学,基本上每个分析项目都会用到;比如基本概率分布,总体和样本的概念,置信区间,假设检验,回归分析都是关于数据分析的统计知识。
在具体的数据分析中,主要运用以下统计学知识,阅读时要重点学习:
基本统计学:均值、中位数、众数、方差、标准差、百分位数等。
概率分布:几何分布、二项分布、泊松分布、正态分布等。
总体与样本:了解基本概念和抽样的概念;
置信区间和假设检验:如何进行验证分析;
相关与回归分析:一般数据分析的基本模型。
......
了解了统计学原理后,用工具可能实现不了。
我们需要在网上寻找相关的实现方法。也可以看书推荐一个很简单的:简单的数据分析第一本数据分析入门,简单通俗,能让你大致了解数据分析的相关概念。这本书所包含的思想逻辑和分析原理要很好的理解,对你以后的学习会有很大的帮助。
Python有很多优秀的数据分析库,比如numpy、scipy、scikit-learn等。可以找一些教程,看看如何通过这些库实现数据分析。
找出最常用的方法,用实际数据集练习。不常用的方法,遇到具体问题可以点对点参考相关文档。前期不建议追求各种高级技能,主要是熟悉最基础的用法。毕竟基础的才是最常用的,常用的方法已经可以解决初级阶段的大部分数据分析问题。
比如利用回归分析(线性回归,逻辑回归),可以实现很多预测性的数据分析,预测未来的数据。
网上有很多这样的教程,也可以看书。我在最后列出了清单。SQL是一种数据库语言,具有数据操作和数据定义等多种功能,为海量数据的存储和管理提供了可能,大大提高了数据抽取的效率。
你需要掌握以下技能:提取特定情况下的数据:企业数据库中的数据一定很大很复杂,你需要提取你需要的部分。
添加、删除、搜索、修改数据库:这些都是数据库最基本的操作,但都可以用简单的命令来实现,记住命令就行了。
对数据进行分组聚合,建立多个表之间的关系:这部分是SQL的高级操作,在处理多维多数据集时,多个表之间的关系非常有用。
可以搜索网上SQL教程自学。不同数据库的SQL语句略有不同,但总体上是通用的。在此,我们建议:
当然,如果你面对的是少量的数据,熊猫等工具对你来说已经足够了,那么你可以暂时不了解SQL这种相对独立的知识。第二部分:培养数据分析思维和习惯
培养数据分析思维,可以从以下三个方面入手:
日常应用中的锻炼
查看行业分析报告
参考优秀数据分析师的思维角度。
如果你对业务本身有所了解,你就会知道,在这个业务层面,那些是
核心业务和重要业务。那么你在数据思维的培养上会更有优势。知道哪些因素和数据相对重要。培养数据的感觉刚开始可能考虑的问题不是很全面,但是随着经验的积累,会逐渐找到分析的方向和大致的分析维度。
所以,日常应用中要多运动,多练习。比如top list、平均水平、地区分布、年龄分布、相关性分析、未来趋势预测等都可以分析。2、查看行业分析报告也可以看看行业分析报告。我之前整理过40+的数据上报平台,大家可以参考一下:
简道云:白嫖和记|40+行业数据报告来源平台汇总0同意0评论文章
3、参考优秀分析师的思维角度也可以借鉴优秀分析师的视角和分析问题的维度,参考这些维度进行分析,按照选择-模仿-超越的方式进行总结和尝试。
经过大量的总结,你会发现这并不是一件困难的事情。最后,给大家推荐几本循序渐进的书籍和课程。
除了上面提到的“简单统计”和“简单数据分析”,再补充一本书:
裸统计这本书生动有趣地讲述了统计知识与生活的结合。讲述作者的故事,从自己的生活经历统计数据。统计学在生活中的智慧随处可见。
“可以避免统计一上来就讲贝叶斯概率和随机分析的无聊话。”
二、进阶:数据变多,不学编程搞不定系列数据分析领域的三大数据库工具:R语言、Python和SQL
1。实用R语言如果你想用R语言进行数据分析,建议你先看完简单的数据分析再开始看这本书。从工具的安装到具体分析方法的R语言实现,讲解详尽,可操作性极强。是一本值得一读的数据分析书。
2。使用Python 进行数据分析最经典的数据分析书籍之一,里面介绍了熊猫,Numpy,matplotlib等库,对于一般的数据分析完全够用。
3。MySQL必须知道并且知道企业数据大多是以数据库的形式存储的,所以如果你想调用你想要的那部分数据,SQL是必备技能。MySQL本身比较简单。对于数据分析师来说,只需要掌握基本的语句和技巧,能够对基础数据进行提取和处理,满足一般的数据分析需求。
三、高阶:数据思维高度训练系列1。精益数据分析“这本书的好处是将企业分为几大行业类别,分门别类讲解每个行业的商业模式特点和分析技巧。要求用户具有较高的分析能力,必须具备相应的业务知识。”
书中不谈具体的数据分析技术,主要分析各种产品中使用的指标、模型以及“数据驱动产品”的一些思路。
2。实用数据科学“对于从事数据分析工作有一段时间的人来说,这无疑是一本很好的书,具有先进性和更高维度。很难有一本书能让你从简单的数据分析顺利过渡到机器学习和数据挖掘。我认为这本书是这个领域最好的一本书。”
这本书是数据分析和机器学习之间的桥梁。从探索性数据分析入手,介绍了回归分析、K近邻、K均值等机器学习的基本算法,以及不同应用场景下最常见的机器学习算法。
3。决战大数据前阿里巴巴数据副总裁车品觉阐述了阿里巴巴在企业内部管理数据过程中的经验。“保存-传递-使用”的数据管理斧,“从数据运营到运营数据”都是精辟之言,可以借鉴。
最后,我会把上面提到的除了书以外的学习资料都整理出来
[/s2/]如何获取学习资料?关注@简道云,私信“数据分析”。