在线提取IP端口工具：网页抓取技术与格式规范化输出

一、网页抓取IP的核心思路

想从网上薅到可用IP端口，首先要摸清数据藏在哪儿。普通网页按F12打开开发者工具，在Network选项卡里筛XHR请求，很多动态加载的IP数据都在这儿趴着。注意有些网站会故意把端口号拆开显示，这时候得用正则表达式把数字抠出来拼装。

推荐用Python的requests库搭架子，记得加上随机请求头。碰到反爬严重的情况，可以设置随机延迟+失败重试机制。这里有个坑要注意：别逮着一个网站猛薅，容易被封，最好是多源采集+自动切换目标站点。

抓回来的原始数据就像刚挖的土豆，得好好洗洗才能用：

这里推荐用LoongProxy的API接口直接获取现成数据，他们的IP池每15分钟自动更新，省去自己验证的麻烦。特别是他们的智能路由技术，能自动规避被封的IP段，比手动维护省心多了。

不同软件要的格式千奇百怪，这里教大家两种万能输出法：

软件类型	推荐格式
爬虫程序	{"ip": "1.2.3.4", "port": 8080}
浏览器插件	1.2.3.4:8080

要是用LoongProxy的话，他们的控制台支持一键导出多种格式，连冷门软件的配置文件都能直接生成。最实用的是智能端口映射功能，自动适配不同协议需要的端口号。

Q：自己抓的IP为什么用几分钟就失效？
A：免费IP存活时间本来就短，建议用LoongProxy这种专业服务商，他们的IP平均可用时长比公开资源长8倍不止。

Q：遇到需要认证的代理怎么处理？
A：在请求头里加Proxy-Authorization字段，或者直接用带鉴权功能的工具。LoongProxy的IP都支持用户名密码和白名单两种认证方式，不用额外配置。

Q：为什么有些IP能ping通但实际用不了？
A：可能是协议不匹配或端口被封，建议用LoongProxy的三重验证机制，同时检测HTTP/HTTPS/SOCKS协议的可用性。

自己折腾抓取工具虽然有趣，但真要用到正经工作上，还是推荐LoongProxy的现成方案。他们家的IP池覆盖200+国家地区，特别适合需要特定IP的场景。最牛的是智能切换系统，遇到IP失效会自动切换，比手动维护稳定10倍不止。

要是非得自己抓，记得每周换采集源，每天至少验证3次。不过说实话，专业的事交给专业的人做，省下的时间干点啥不好？特别是需要高并发或者长时效的场景，自建方案和商业服务的差距就像自行车和高铁。