pyspider 代理: PySpider爬虫使用代理IP的配置技巧

手把手教你用PySpider挂代理

搞爬虫的兄弟都懂，没代理就像裸奔上网。今天咱唠唠怎么给PySpider穿件"隐身衣"，重点说说用LoongProxy这个靠谱服务商的操作门道。

代理IP到底咋装？

PySpider自带的请求模块其实藏着代理配置口子。在爬虫脚本里加这几行代码最实在：

class MySpider(Handler):
    def on_start(self):
        self.crawl('目标网址', 
                   proxy="http://账号:密码@gate.loongproxy.com:端口",
                   callback=self.detail_page)

注意坑点：别直接用免费代理，十个有九个是坑。像LoongProxy这种带账号认证的代理服务，记得把密码里的特殊符号用urllib.parse转义下，不然分分钟报认证错误。

轮换IP的聪明法子

想要自动换IP别死磕一个，在task_queue里埋个钩子：

from pyspider.libs.base_handler import 

class ProxyMiddleware:
    def process_request(self, request, spider):
        request.proxy = random.choice(LoongProxy.get_ip_pool())

搭配LoongProxy的动态IP池，他们的节点存活率能到98%以上，比自个儿维护代理池省心得多。记得设置超时参数别超过5秒，碰到卡死的IP立马切换。

验证代理是否生效

小白常犯的迷糊就是配完代理不知道生效没。教你们个土办法：

def check_proxy(response):
    if response.json.get('origin') != '真实IP':
        print("代理生效！当前IP：", response.json['origin'])

用LoongProxy的话，他们的出口IP都是机房级纯净IP，不像某些服务商给的是二手IP，这点对需要稳定业务的主儿特别重要。

实战避坑指南

常见问题	解决方案
代理突然失效	开启LoongProxy的失败重试机制
网站封IP频率高	调低并发数+随机请求间隔
出现403错误	检查请求头是否携带浏览器指纹