ip代理服务器搭建(搭建稳定的代理ip池)
一、建立IP代理池的思路:
做爬虫时,遇到访问太频繁IP被封是难以避免的,而本地单个IP是不足以进行大规模爬取,并且自己并不想购买付费代理,那么,构建一个IP代理池是非常有必要的。思路如下:
图1
二、建立IP 代理池的步骤:
爬取代理IP:搜索选择代理IP网站,选取免费代理;代码如下:
# _*_ coding:UTF-8 _*_
# 开发作者:Jason Zhang
# 创建时间:2020/12/29 17:58
# 文件名称:爬取代理IP.PY
# 开发工具:PyCharm
import requests
import lxml.html
import os
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
url_list = ['http://www.xicidaili.com/nn/%r' % i for i in range(1,10)]
ip_list = []
for url in url_list:
r = requests.get(url,headers=headers)
etree = lxml.html.fromstring(r.text)
ips = etree.xpath('//tr[@class="odd"]')
for ip in ips:
IP = ip.xpath('//td/text()')
ip = IP[0] +':'+ IP[1]
ip_list.append(ip)
f = open('ip.txt','wb')
f.write(','.join(ip_list).encode('utf-8'))
f.close(
验证代理IP:
通过网络访问来验证代理IP的可用性和访问速度,将之前爬取到的代理IP地址从ip.txt文件中提取出来,分别试用代理IP去访问某个网站首页,仅保留响应时间在2秒内的IP,并保存在QIP.txt中,代码如下:
# _*_ coding:UTF-8 _*_
# 开发作者:关中老玉米
# 创建时间:2020/12/29 18:27
# 文件名称:验证代理IP.PY
# 开发工具:PyCharm
import requests
ip_list = open('ip.txt').read().split(',')
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
}
q
url = 'https://www.baidu.com' #用百度来测试IP是否能正常连网
for i in ip_list: #设置超时时间timeout为2 s,超时则为不可用IP
r = requests.get(url, proxies={'http': 'http://' + ip[i]}, headers=headers,timeout=2)
if r.text:
qip.append(qip[i])
else:
continue
f = open('quality_ip.txt','wb')
f.write(','.join(quality_ip).encode('utf-8'))
f.close()
使用代理IP:
建立IP代理池之后,有以下两种使用代理IP的方式。
# _*_ coding:UTF-8 _*_
# 开发作者:Jason Zhang
# 创建时间:2020/12/31 18:03
# 文件名称:使用代理IP.PY
# 开发工具:PyCharm
# (1)使用随机 IP,代码如下:
import random
import requests
ip_list = open('quality_ip.txt').read().split(',')
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
url = 'http://*********'
r = requests.get(url, proxies={'http': 'http://'+random.choice(ip_list)},headers=headers)
# (2)因为免费的代理时效很短,在后续的爬取任务中很容易失效,所以当出现访问错误(响应码不等于 200)时,更换 IP,代码如下:
ip_list = open('qip.txt').read().split(',')
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
for ip in ip_list:
for i in range(len(url_list)):
r = requests.get(url_list[i], proxies={'http': 'http://'+ip},headers=headers)
if r.status_code != 200:
break
- 1bat的大数据(BAT的大数据来源)
- 2三星s8屏幕上端2(三星s8屏幕上端2个按键)
- 3三星屏幕坏了如何导出(三星屏幕摔坏了如何导出数据么)
- 4红米3x怎么关闭自动更新(红米k40s怎么关闭自动更新)
- 5微信上防止app自动下载软件怎么办(微信上防止app自动下载软件怎么办啊)
- 6押镖多少钱(押镖一个月有多少储备金)
- 7瑞星个人防火墙胡功能(瑞星个人防火墙协议类型有哪些)
- 8cf现在等级是多少(cf等级2020最新)
- 9老滑头多少条鱼(钓鱼老滑头有什么用)
- 10WPS自动调整语法(wps如何修改语法)
- 11dell控制面板防火墙(dell的防火墙怎么关闭)
- 12丑女技能升多少(丑女技能需要满级吗)
- 13智能家居系统怎么样(智能家居系统好吗)
- 14戴尔屏幕(戴尔屏幕闪烁)
- 15y85屏幕信息(vivoy85息屏显示时间怎么设置)
- 16魅蓝note3屏幕出现方格(魅蓝note屏幕竖条纹)
- 17v8手指按屏幕(触屏手指)
- 18金为液晶广告机(液晶广告机lb420)
- 19三星显示器怎么校色(三星显示器 调色)
- 20hkc显示器dvi音频(hkc显示器有音响么)
- 21康佳液晶智能电视机(康佳液晶智能电视机怎么样)
- 22做液晶画板电脑(做液晶画板电脑怎么操作)
- 23液晶屏极化现象原理(液晶屏极化现象原理是什么)
- 24企业网络安全防火墙(企业网络防护)
- 256splus黑屏屏幕不亮(苹果6s plus屏幕突然黑屏)
- 26充电导致屏幕失灵(充电导致屏幕失灵怎么办)
- 27超极本屏幕旋转(笔记本电脑屏幕旋转,怎么转过来?)
- 28igmp防火墙(防火墙配置ipv6)
- 29荣耀王者多少经验(王者荣耀经验多少一级)
- 30lol老将还剩多少(qg老将)