有哪些常用的数据挖掘技术(14个超有趣的数据分析项目,数据集都给你整理好啦(建议收藏))

对数据、数据分析或数据科学感兴趣的人,提供14个可以在业余时间完成的数据科学项目列表!

项目分为三种类型:
  • 可视化项目
  • 探索性数据分析项目
  • 预测建模
  • 可视化项目

    最简单的入门方法是数据可视化。以下三个数据集可以用来创造一些有趣的可视化效果,添加到你的简历中。

    1. 新冠病毒可视化

    了解如何使用Plotly构建动态可视化数据,展示冠状病毒如何在全球传播。Plotly非常好用,它可以做动态可视化,很漂亮,操作简单。



    难易程度:⭐数据集:

    新型冠状病毒2019数据集

    注:头条不能放外链,需要数据集的小伙伴可以直接私信“333”获取!!!

    数据挖掘有哪些技术

    教程:

    https://towardsdatascience . com/visualizing-the-coronavirus-疫情-与choropleth-maps-7f30fccaecf5

    2. 澳洲大火数据可视化

    2019-2020年的丛林火灾季节,也被称为黑色夏天,由2019年6月开始的几次极端野火组成。据维基百科统计,这场大火摧毁了约1860万公顷土地和5900多座建筑。

    这是一个有趣的项目。可以使用Plotly或Matplotlib数据可视化工具来可视化野火的规模及其对地理的影响。

    难易程度:⭐数据集:

    来自太空的火:澳大利亚

    3. 地表温度可视化



    你有没有怀疑过全球变暖的观点?创建一些数据可视化效果,展示地表温度如何随时间变化,可以通过创建折线图的Choropleth图或者其他动画来实现!你也可以创建一个预测模型来预测未来50年地球的温度。

    难易程度:⭐⭐数据集:

    气候变化:地球表面温度数据

    探索性数据分析项目

    探索性数据分析(EDA),也称为数据挖掘,是指在数据分析的过程中使用多种技术来更好地理解数据。

    1. 纽约Airbnb数据挖掘

    自2008年以来,Airbnb为游客和房东提供了更方便的旅行方式,并提出了更个性化的体验世界的方式。这个数据集包含了2019年纽约的租房信息,以及它的地理信息、价格、评论数等。



    可以分析的一些角度如下:

  • 哪些地区的生意最好,为什么?
  • 哪些区域的流量比其他区域大,为什么?
  • 价格、评论数、预订天数之间有关系吗?
  • 难易程度:⭐⭐⭐数据集:

    纽约市Airbnb开放数据

    2. 哪些因素与员工离职和绩效有关

    IBM公布了一个全面的数据集,可以用来了解各种因素如何影响员工离职率和满意度。一些变量包括教育水平、工作相关性、绩效评估和工作生活平衡。



    分析这个数据集,找出真正影响员工满意度的变量。此外,我们还可以看看是否可以对变量进行重要性排序。

    难易程度:⭐数据集:

    IBM HR Analytics员工流失和绩效

    3. 世界大学排名

    你认为你的国家有世界上最好的大学吗?成为“最好”大学的衡量标准是什么?这个数据集包含三个全球大学排名。使用这些数据,您能否回答以下问题:

  • 顶尖大学在哪些国家?
  • 决定世界排名的主要因素是什么?


  • 难易程度:⭐数据集:

    世界大学排名

    4. 饮酒与在校表现

    喝酒会影响学生成绩吗?如果没有,另一个影响是什么?这一数据是从对中学数学和葡萄牙语课程的学生进行的调查中获得的。它包含几个变量,如饮酒量、家庭规模和参加课外活动。

    利用这些数据,我们可以探索学校表现与各种因素之间的关系。另外,看看能不能根据其他变量预测学生成绩!

    难易程度:⭐数据集:

    学生饮酒

    5. 宠物小精灵数据挖掘

    对于所有游戏玩家来说,这是一个包含七代802个口袋妖怪信息的数据集。试着回答以下问题!

  • 哪一代宠物精灵最强?哪一代人最弱?
  • 什么样的神奇宝贝最强?哪个物种最弱?
  • 你能建立一个分类器来识别神奇宝贝吗?
  • 身体特征与力量状态(攻击、防御、速度等)是否有相关性。)?


  • 难易程度:⭐数据集:

    完整的口袋妖怪数据集

    6. 探索影响预期寿命的因素

    世卫组织建立了一个一段时间内所有国家健康状况的数据集,包括预期寿命、成人死亡率等统计数据。利用这个数据集,探究各个变量之间的关系,预测对寿命影响最大的因素是什么?

    请尝试回答以下问题:
  • 初始预测因素真的会影响预期寿命吗?影响实际预期寿命的预测变量有哪些?
  • 预期寿命低于(
  • 婴儿死亡率和成人死亡率如何影响预期寿命?
  • 预期寿命与饮食习惯、生活方式、运动、吸烟饮酒是正相关还是负相关?
  • 接受教育对人的一生有什么影响?
  • 寿命和饮酒之间是正相关还是负相关?
  • 人口密集国家的人均寿命是否有下降趋势?
  • 免疫覆盖率对预期寿命有什么影响?
  • 难易程度:⭐数据集:

    预期寿命(世卫组织)

    预测模型1. 能源消耗的时间序列预测




    该数据集由美国区域传输组织PJM网站上的用电数据组成。使用这个数据集,看看我们是否可以建立一个时间序列模型来预测能源消耗。此外,还可以查看是否能发现一天中每个小时的趋势、节假日用电量以及长期趋势!

    难易程度:⭐⭐⭐⭐数据集:

    每小时能耗

    2. 贷款预测



    数据集取自Analytics Vidhya,包括615行和13列关于已批准和未批准的历史贷款的信息。能否创建一个模型来预测贷款是否会被批准?

    难易程度:⭐数据集:

    https://data hack . analyticsvidhya . com/contest/practice-problem-loan-prediction-iii/

    3. 二手车价格计算器



    Craigslist是全球最大的二手车交易商,数据集由Craigslist抓取的数据组成,每隔几个月更新一次。使用这个数据集,看看是否可以创建一个数据集来预测汽车的价格是被高估还是被低估。

    难易程度:⭐⭐⭐数据集:

    二手车数据集

    4. 信用卡欺诈检测



    数据集显示了两天内发生的交易,其中284,807笔交易中有492笔是欺诈性的。数据呈高度正态分布,欺诈占全部交易的0.172%。学习如何使用异常数据集并建立信用卡欺诈检测模型。

    难度难易程度:

    数据集:5. 皮肤癌图像检测



    通过超过10,000张图像建立一个神经网络来检测皮肤癌。这绝对是最难的项目,需要神经网络和图像识别的储备知识。

    难度:

    数据集:

    皮肤癌MNIST:10000哈姆

    您可以还会对下面的文章感兴趣

    使用微信扫描二维码后

    点击右上角发送给好友