避免scrapy服务器IP地址被屏蔽的几种方法_python

一、爬虫被封IP的原因

很多被Scrapy等爬虫程序抓取的目标网站的服务器都会进行访问检测，没有通过检测的IP地址会被服务器加入黑名单，通常会返回拒绝服务403，其检测常包含以下几种方式：

1.访问频率限制：访问太快，服务器就会认为不是人而是爬虫的操作；

2.以固定间隔时间访问：每次访问间的时间间隔都固定，则服务器就会认为不是人而是爬虫的操作；

3.访问请求的头部user agent是否为通用浏览器访问时采用的请求头部，如果不是或者为空时，则服务器就会认为不是人而是爬虫的操作。

4.网站会通过Cookie识别用户身份,以此判断是人还是爬虫。

二、解决被封策略

1.设置下载延迟DOWNLOAD_DELAY，数字越大越安全

2.设置请求后一个随机时延，模拟更真实的人类访问

3.使用user agent池。也就是每次发送的时候随机从池中选择不一样的浏览器头信息，防止暴露爬虫身份

4.禁止Cookie，某些网站会通过Cookie识别用户身份，禁用后使得服务器无法识

5.使用代理IP池

6.分布式爬取，这个是针对大型爬虫系统的

7.伪造x-forward-for，伪装自身为代理，让服务器不认为你是爬虫

三、具体代码

具体实现中，ZZKOOK仅通过动态设置代理及请求头部，并增加请求时延，就打破了服务器的屏蔽，具体代码如下：

1.在scrapy工程myscrapy目录下的设置文件settings.py中

配置MY_USER_AGENTS和MY_PROXIES为自定义参数,动态设置代理及请求头部：

MY_USER_AGENTS = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
]
MY_PROXIES = [
    {'ip_port': '218.249.45.162:35586', 'user_pass': ''},
    {'ip_port': '115.238.59.86:53400', 'user_pass': ''},
    {'ip_port': '120.83.110.244:9999', 'user_pass': ''},
]

2.仍然是在settings.py中配置动态代理IP及请求头获取的中间件：

#scrapy代理IP、user agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制，下面我们创建middlewares.py文件。
DOWNLOADER_MIDDLEWARES = { 
'myscrapy.middlewares.RandomUserAgent': 1,
'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110, 
'myscrapy.middlewares.ProxyMiddleware': 100 
}

3.在scrapy工程myscrapy目录下创建文件中间件文件middlewares.py，并在其中加入动态获取代理IP地址和请求头部的User agent的类：ProxyMiddleware和RandomUserAgent，具体代码如下：

from stockfetch.settings import MY_PROXIES
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

#类ProxyMiddleware用来切换代理，proxy列表MY_PROXIES也是在settings.py中进行配置。
class ProxyMiddleware(object):
    def process_request(self, request, spider):
        proxy = random.choice(MY_PROXIES)
        if proxy['user_pass'] is not '':
            request.meta['proxy'] = "http://%s" % proxy['ip_port']
            encoded_user_pass = base64.b64encode(proxy['user_pass'].encode('utf-8'))
            request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass.decode()
            print("**************ProxyMiddleware have pass************" + proxy['ip_port'])
        else:
            print("**************ProxyMiddleware no pass************" + proxy['ip_port'])
            request.meta['proxy'] = "http://%s" % proxy['ip_port']

#类RandomUserAgent主要用来动态获取user agent，user agent列表MY_USER_AGENTS在settings.py中进行配置。
class RandomUserAgent(UserAgentMiddleware):
    def __init__(self, agents):
        self.agents = agents

    @classmethod
    #scrapy为我们提供了from_crawler()的方法访问设置信息，此处从settings里面取出USER_AGENT列表
    def from_crawler(cls, crawler):
        return cls(crawler.settings.getlist('MY_USER_AGENTS'))
        
    #随机从列表中选择一个，添加到headers里面，最后默认返回了None。
    def process_request(self, request, spider):
        agent = random.choice(self.agents)
        request.headers['User-Agent'] = agent
        request.headers.setdefault('User-Agent', random.choice(self.agents))
        print "**************" + agent

4.在Scrapy工程myscrapy的设置文件settings.py中设置时延、重试次数、请求并发次数等系统参数，如下：

#下载同一个网站下一个页面前需要等待的时间
DOWNLOAD_DELAY = 1
#重试次数
RETRY_ENABLED = True
RETRY_TIMES = 5
#请求并发数
CONCURRENT_REQUESTS = 3

5.在蜘蛛文件，即myscrapy\spiders\myspider.py中每一次请求之间增加一个随机的时延，如下：

class MyspiderSpider(scrapy.Spider):
    name = 'myspider'
    def start_requests(self): 
        ....        
        request = Request(url)
         #增加一个随机时延，减小服务器地址被屏蔽的可能
         wait = random.randint(1,10)
         time.sleep(wait * 0.1)
         yield request

四、常见错误

1.twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion

问题原因：

查看url，爬取简书网站，使用的url是start_url = “http://www.jianshu.com/”，一直报错，其他的各种浏览器数据都加了，包括浏览器头部user agent，但还是报上面那种错误。仔细对比，简书网站是重定向到https://www.jianshu.com/的，也就是说从http协议到https协议。

解决方案：

1）在http请求头部设置字段，即升级http协议的字段，让它支持https。

2）若果怕麻烦的，直接start_url = “https://www.jianshu.com/”

2.An error occurred while connecting: 104: Connection reset by peer.

著作权归作者所有。商业转载请联系本站作者获得授权，非商业转载请注明出处 ZZKOOK。

您可能感兴趣的文章

登录以发表评论

程序猿的工作让人崩溃

sky 于周一, 2020-03-09 10:33 提交

感谢分享！！！

春芽儿于周日, 2020-03-08 20:42 提交

ZZKOOK

大数据、OS、软件开发技术分享

避免scrapy服务器IP地址被屏蔽的几种方法

编程语言专题

你在这里

避免scrapy服务器IP地址被屏蔽的几种方法

您可能感兴趣的文章

评论

专题系列

热门文章

热门标签

专题