免费代理ip地址网站(怎么用python批量获取免费代理IP)

现在需要代理IP的地方很多,比如网络投票、大数据分析、人工智能等领域。那么如何获得代理IP呢?很多人想到的是免费代理IP,免费,不是很美好吗?虽然我不推荐使用免费代理IP,但是我想和大家分享一下我的想法和方法。

免费网页代理ip



一.收集网站

要获得免费代理IP,首先要收集一些有免费代理IP的网站,然后写代码批量获得网站上的免费代理IP。这里就不说有哪些网站了。我自己去百度搜一下。他们有很多。

第二,分析网站

收集完网站后,对有免费代理IP的网页进行分析,比如一共多少页,你想要的数据在哪里,如何获取。

第三,写代码

分析完网站,就可以开始写代码了。代码贴在这里仅供参考。

import requests import CSV import panda as PD from fake _ user agent import user agent import time #获取所有带有免费代理IP的页面URL Get _ page URLs(starturl,endurl,page count): page _ URL _ list =[] #范围从1开始,所以pageCount+1,左闭右开 for I in 第一部分url+哪个页面+第二部分url, #有些页面URL以页数结尾,但没有第二部分。 那么endUrl可以设置为空string page _ URL = starturl+str(I)+endUrl page _ URL _ list . append(page _ URL) 返回页面。请求所有自由代理IP的页面url,获取page _ URL _ list中page _ URL的自由代理IP def get _ content(page _ URL _ list): UA = User Agent() data _ list =[] :[/h]User-Agent & # 39;:ua.random}) #如果免费代理IP放在表中,熊猫可以直接获取,比较简单。 #如果没有,需要使用BeautifulSoup或者xpath。或者正则表达式提取 data = PD . read _ html(resp . text) # print(data) data _ list . append(data) time . sleep(2) [错误的请求URL for:& # 39;+page _ URL) # print(data _ list) return data _ list #将获取的自由代理IP保存在本地Excel表中备用,或者保存在TXT文本或数据库中 Save _ path): for datas in data: # print(data) data . to _ CSV(Sava _ path,中一& # 39;,编码= & # 39;utf-8 & # 39;,header=1,index = 0) if _ _ name _ _ = = & # 39;_ _ main _ _ & # 39: #前半部分URL startUrl = & # 39;https://* * * * * * */free/inha/& # 39; # Pages page count = 4 #如果页面url以Pages结尾,则后半部分URL设置为空string endUrl = & # 39;' #文件保存路径 save _ path = r & # 39;d:3 . xlsx & # 39; page _ URL _ list = get _ pageurls(starturl,endurl,page count) data _ list = get _ content(page _ URL _ list) save _ CSV(data _ list,save _ path

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友