大数据如何采集图片数据(批量采集/下载网页中的图片数据)

l收藏网站

[场景描述] 收集revisionvillage网页中所有图片的数据。

[来源网站介绍]国外知名IB真题网站revisionvillage有一个IB数学刷题网站,每道题都有视频讲解。

[工具]for spider数据采集系统,免费下载:for spider免费版下载地址

[门户地址]https://www . revision village . com/I b-math-analysis-and-approach-HL/question bank/number-and-algebra/sequences-and-series/

[收藏内容]

收集页面中的真实图片数据。





[采集效果] 如下图所示:




l 配置步骤

1。创建新的采集任务

选择【采集配置】,点击任务列表右上角的[+]新建一个采集任务,在【采集地址】框中填写采集入口地址,自定义【任务名称】,点击【下一步】。




2。寻找图片链接

在浏览器中打开页面,点击F12,选择指针,点击页面中的图片位置,在源代码中找到图片链接,如下图所示:





该链接如下图所示:





复制图片链接,在浏览器中打开,就是图片页面:




3。查找图片链接位置/规则

大数据如何采集

观察源代码,发现每个真题对应源代码中的一个类,如下图所示:红框表示真题1对应的源代码,绿框包含所有真题的源代码,从类为[et _ builder _ inner _ contentet _ Pb _ gutters 3]的子节点的下一个节点开始。





打开第一个真题对应的源代码后,如下图所示,观察到图片链接的位置在该节点的下一个子节点的子节点的href值中。




4。数据提取

①打开模板,创建新的数据提取,如下图所示:





②新建一个数据表,如下图所示:





③相关数据表




④打开脚本窗口,创建新的数据提取脚本。





⑤根据图片链接规则,编写脚本如下:





脚本文本:

var a = DOM。find class(& # 34;et _ builder _ inner _ content et _ Pb _ gutters 3 & # 34;,"div & # 34);//用类[et _ builder _ inner _ contentet _ Pb _ gutters 3] var b = a . child . next . next . next定义一个节点;//将B定义为节点A的子节点的下一个节点的下一个节点,即for(i=1的位置节点 ;我& lt=32;I++){//写一个for循环得到每张图片 记录re;//返回数据固定搭配 re . id = I;//范围主键为I var c = b . child . next . child . child . child . href;//将c定义为节点B的下一个子节点的子节点的href属性值,即得到图片链接值 vardoc = extract . opendoc(chann,c,& # 34;");//打开图片链接 var p = doc。getdom()。getsource(c);//将p定义为图片链接打开的页面中的源代码,即图片 re . pic = p;//Return p re.ex = "。png”;//返回后缀。png 摘录。CloseDoc(doc);//固定搭配,关闭图片链接 result.addrec (re,this . schema bid);//固定搭配,返回一个数据 b = b . next;//b是B的下一个节点,即下一张图片对应的源代码的位置节点 }

⑥采集预览

发现图片已经全部采集完毕,说明配置成功。





l 采集步骤

模板配置完成,采集预览无问题后,即可进行数据采集。

1。创建数据表单

选择数据表,在表单列表中单击该模板的表单,然后选择在关联数据表中创建。表名是用户自定义的,这里命名为ID(请注意不允许用数字和特殊符号命名),然后点击OK。创建,检查数据表,点击右上角的保存按钮。





2。开始收集

选择数据采集,勾选任务名称,点击开始采集,采集正式开始。





3。导出数据

采集完成后,您可以在数据浏览中选择数据表,查看采集的数据并导出数据。











4。打开导出的文件,如下图所示





本教程仅供教学使用,严禁用于商业用途!


l前鼻简介

钱斯尼夫大数据(Qiansniff Big Data),国内领先的R&D大数据专家,多年来致力于大数据技术的研发,自主研发了从数据采集、分析、处理、管理到应用、营销的一整套大数据产品。前卫致力于打造国内首个深度大数据平台!

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友