大数据如何采集图片数据(批量采集/下载网页中的图片数据)

小风讲创业

2022-04-20 07:36:21

l收藏网站

[场景描述] 收集revisionvillage网页中所有图片的数据。

[来源网站介绍]国外知名IB真题网站revisionvillage有一个IB数学刷题网站，每道题都有视频讲解。

[工具]for spider数据采集系统，免费下载:for spider免费版下载地址

[门户地址]https://www . revision village . com/I b-math-analysis-and-approach-HL/question bank/number-and-algebra/sequences-and-series/

[收藏内容]

收集页面中的真实图片数据。

[采集效果] 如下图所示:

l 配置步骤

1。创建新的采集任务

选择【采集配置】，点击任务列表右上角的[+]新建一个采集任务，在【采集地址】框中填写采集入口地址，自定义【任务名称】，点击【下一步】。

2。寻找图片链接

在浏览器中打开页面，点击F12，选择指针，点击页面中的图片位置，在源代码中找到图片链接，如下图所示:

该链接如下图所示:

复制图片链接，在浏览器中打开，就是图片页面:

3。查找图片链接位置/规则

大数据如何采集

观察源代码，发现每个真题对应源代码中的一个类，如下图所示:红框表示真题1对应的源代码，绿框包含所有真题的源代码，从类为[et _ builder _ inner _ contentet _ Pb _ gutters 3]的子节点的下一个节点开始。

打开第一个真题对应的源代码后，如下图所示，观察到图片链接的位置在该节点的下一个子节点的子节点的href值中。

4。数据提取

①打开模板，创建新的数据提取，如下图所示:

②新建一个数据表，如下图所示:

③相关数据表

④打开脚本窗口，创建新的数据提取脚本。

⑤根据图片链接规则，编写脚本如下:

脚本文本:

var a = DOM。find class(& # 34；et _ builder _ inner _ content et _ Pb _ gutters 3 & # 34；,"div & # 34);//用类[et _ builder _ inner _ contentet _ Pb _ gutters 3] var b = a . child . next . next . next定义一个节点；//将B定义为节点A的子节点的下一个节点的下一个节点，即for(i=1的位置节点 ;我& lt=32;I++){//写一个for循环得到每张图片记录re；//返回数据固定搭配 re . id = I；//范围主键为I var c = b . child . next . child . child . child . href；//将c定义为节点B的下一个子节点的子节点的href属性值，即得到图片链接值 vardoc = extract . opendoc(chann，c，& # 34；");//打开图片链接 var p = doc。getdom()。getsource(c)；//将p定义为图片链接打开的页面中的源代码，即图片 re . pic = p；//Return p re.ex = "。png”；//返回后缀。png 摘录。CloseDoc(doc)；//固定搭配，关闭图片链接 result.addrec (re，this . schema bid)；//固定搭配，返回一个数据 b = b . next；//b是B的下一个节点，即下一张图片对应的源代码的位置节点 }

⑥采集预览

发现图片已经全部采集完毕，说明配置成功。