无论是做数据分析、数据挖掘还是机器学习,对于初学者来说,学习更多的模型和算法理论,可能还不如一次实践学到的多,所以我经常建议大家通过实际项目练手,加强对算法和模型的理解。
从哪里可以找到我手中的数据?我一般会提供数据集给大家在实际分析中练习。今天简单整理一下平时做数据分析和数据挖掘练习时用到的数据集网站,对做机器学习的朋友也很有用。
简单、公开的数据集先分享一些数据集和一些科研机构、企业、政府会开设的专业数据下载网站。这些数据集一般都比较完善,质量也比较高,数据清洗工作比较少,适合初学者做一些简单的基础分析。
1.中国统计信息网:http://www.tjcn.org/
各级政府每年国民经济和社会发展的统计信息,其中一部分是免费的。
2.国家统计局:http://www.stats.gov.cn/
各种与民生相关的统计,而且所有的数据都是免费的,而且这个网站的友情链接里有很多外地的数据和外地的数据。
3.中国工业信息网:http://www.chyxx.com/data/
包含与各种行业相关的数据,全部免费,常用于行业分析。
4.美国政府的公开数据:https://www.data.gov/
美国政府公开数据的网站包含了经济、消费、教育、医疗、农业等多个领域的数据。
5.世界银行:https://data.worldbank.org/
世界银行的公开数据。该平台还提供了一些工具,如开放数据目录、世界发展指数、教育指数等。
6.百度数据开放平台:https://open.baidu.com/open/#/open
7.https://link.zhihu.com/?郭云数据市场:target = http://www . moojnn . com/Data-Market/
主要包括:生活服务、教育、能源、建筑、交通、政府、金融、农业、医疗、健康等行业的数据,大部分是免费的,部分需要付费。
最常见的数据可视化项目是制作某一地区的人均收入差异信息图。在寻找与数据可视化项目相关的数据集时,我们希望数据集越干净越好,减少数据清洗工作,数据要足够有趣,能够支持丰富的图表,所以在上面提到的一些公共数据网站上可以找到这类数据,我也列举了一些政府网站以外的相关网站:
1、538:http://fivethirtyeight.com/
这是互动新闻和体育事件的网站。网站上将发布许多与数据相关的文章。在这些文章中,使用的数据集将发布在github上。除了获取数据集,还可以参考别人的项目流程。
2、Socrata open data:https://opendata.socrata.com/
Socrata OpenData网站包含几个清理过的数据集,可以直接在浏览器中查看,也可以下载到本地进行可视化。大部分数据来自美国政府。
数据建模、机器学习的数据集1、https://archive.ics.uci.edu/ml/datasets.html UCI
UCI是加州大学欧文分校的开放经典数据集,也是机器学习领域最著名的数据仓库。它包含了各种数据集,比如经典泰坦尼克号生存预测的最新数据(比如空空气质量和GPS轨迹)。
2.阿里天池:https://tianchi.aliyun.com/
作为国内领先的互联网公司阿里巴巴旗下的大数据竞赛网站,提供大量竞赛数据集供动手操作,说不定还能抢到一个奖,赚到一笔奖金。
3、ka ggle:https://www . ka ggle . com/datasets
Kaggle是一个数据科学社区,举办过很多机器学习比赛。用户可以自己上传数据集,也可以通过某个比赛下载数据集,有很多有趣的数据集是其他平台找不到的。
4.科赛。com:https://www.kesci.com/home/project
这个网站提供了很多可以免费下载的数据集,也有一些数据项的比赛,但是总体来说,项目难度比较低,奖金不多,学生参加的比较多。反正简单的用它们来获取数据集就很好了。
5、Quandl
这是一个包含经济和金融数据的仓库。部分信息是免费的,但大部分数据集需要购买,数据可用于构建经济指标预测或股价分析模型等。
有时候你可能只是想找一些大型数据集进行分析,分析结果可能并不重要。重要的只是数据读取分析流程和数据处理能力。在这里,我也列举了几个使用比较频繁的网站:
1.aws开放数据集:https://www.amazon.com/aws
亚马逊在其Amazon Web Services中提供了一些大型数据集供免费下载,但你必须注册一个aws账户,新用户可以免费访问。
2.谷歌公共数据集:https://cloud.google.com/BigQuery/public-data/
谷歌提供了一些数据集作为其大型查询工具的一部分。包括GitHub公共数据库数据,黑客新闻的所有故事和评论。
3.Youtube标签视频数据集:https://research.google.com/youtube8m/
YouTube标签视频数据集包括来自4800个可视化实体的800万个Youtube视频id和相关标签。拥有最先进的十亿帧视觉功能。
如果这么多网站都告诉你了,你还是懒得去找,那我只能给你一个我整理的30个实用数据分析项目的最终清单,转发这篇文章,后台回复“项目”。