Bot
防御
代理基础

搜索引擎要放行,恶意爬虫要拦住代理横飞时代的Bot防御

做爬取、广告验证、跨区QA的团队要用代理和自动化,但同时也要保护登录、结账、商品接口不被恶意脚本刷爆。平衡的艺术:保留搜索引擎和合作伙伴流量,同时识别那些通过住宅代理伪装成真人的机器人。

2025年11月12日
5分钟阅读

TL;DR / 核心要点

  • 没有纯人类流量: 线上业务默认就是"真人+各种机器人"混合状态,搜索爬虫、监控探针、合作伙伴集成、QA脚本、攻击性爬虫全打在同一套服务上。
  • 必须保留的机器人: Googlebot/Bingbot/百度蜘蛛等搜索引擎爬虫直接影响自然流量,要通过反向DNS+正向确认验证,不能只信User-Agent;合作伙伴监控机器人需要登记IP段或Token。
  • 恶意流量现在跑在住宅/移动代理上: 撞库、薅羊毛、价格爬取、低速DDoS大量使用轮换住宅代理和移动IP,看起来就像一堆普通用户,单靠IP黑名单根本挡不住。
  • 重点盯住行为信号: TLS/JA3指纹在大量IP上复用、路径模式可疑、登录失败率飙升、蜜罐命中、鼠标/滚动事件缺失——多信号叠加才准,不要单一判断。
  • 不伤SEO的前提下做防御: 只在高价值流程(登录/注册/结账/支付)上CAPTCHA或JS挑战,维护准确的robots.txt/sitemap,监控合法爬虫的挑战率,避免WAF规则过激伤害自然曝光。

混合流量是常态,不要追求零机器人

现在几乎没有哪个线上业务只接"纯人类"流量。搜索引擎爬虫、监控探针、合作伙伴的集成、QA的脚本、还有各种激进的爬虫,全都打在同一套服务上。

你要围绕这种混合状态做计划,而不是追求"零机器人流量"的神话。目标是在可接受的成本下压低恶意流量,保护关键业务面,而不是把所有自动化流量一刀切。

哪些流量必须保留

搜索引擎爬虫

Googlebot、Bingbot、百度蜘蛛等搜索引擎爬虫直接影响自然流量。必须通过反向DNS+正向确认验证,不能只看User-Agent。

链接预览爬虫

微信、企业微信、Slack等即时通讯工具抓取链接元数据生成预览卡片。

合作伙伴监控机器人

联盟平台、广告验证、第三方监控服务,应该有登记的IP段或认证Token。

一刀切地拦掉这些流量,会直接影响自然搜索曝光、合作伙伴SLA以及监控数据的可信度

Googlebot验证的正确姿势: 主流搜索引擎爬虫(Googlebot、Bingbot、区域搜索引擎)必须通过反向DNS查找+正向确认来验证——千万不要只看User-Agent字符串,因为伪造"Googlebot" UA是常见攻击手段。合作伙伴和联盟机器人应该有登记的IP段或认证Token,这样才能和恶意自动化区分开。

恶意自动化怎么伪装

数据爬取

竞品监控、价格爬取、商品库存采集,现在大量跑在轮换住宅代理上,远超API速率限制。

滥用与刷量

撞库(凭据填充)、批量注册、薅羊毛、优惠券滥用,通过混合IP池攻击登录和结账接口。

业务降级

接口洪水、低速DDoS压垮结账流程或API服务。

身份伪装

伪造浏览器指纹、假冒Googlebot UA绕过白名单,甚至重放真实会话的TLS指纹。

攻击者现在非常依赖轮换住宅/移动代理,看上去就像一堆普通用户在访问;如果只靠IP黑名单,你几乎挡不住他们。以下是常见的伪装手段:

  • 轮换住宅/移动代理模拟真实用户的IP分布——这已经成为恶意机器人的标配,导致单纯的IP信誉评分不够用。
  • User-Agent伪造和ASN跳跃,伪装成Chrome、Safari甚至Googlebot。
  • 克隆的TLS/JA3/设备指纹,从真实会话中重放以绕过浏览器检测。不过攻击者也在研究如何随机化TLS指纹,所以这类信号要和行为层信号一起用。
  • 泄露的Cookie或会话Token,完全跳过认证直接进业务流程。
  • 撞库(凭据填充)与帐号接管(ATO)——攻击登录和结账流程的主要滥用方式,通常通过混合或轮换IP池传递。

识别机器人的行为信号

IP信誉有帮助,但代理池能按需给攻击者提供"干净"的IP。所以要在更难伪造的行为遥测上做文章:

  • 来自同一ASN的登录/结账/API流量突然爆发,即使IP在轮换——高价值端点要比公开页面监控更严。
  • 同一个TLS指纹(JA3/JA4)或设备指纹在成千上万个不同IP上重复出现,且Header高度一致——强自动化信号。
  • 导航路径从不触发真实UI事件(菜单点击、弹窗、滚动),但几秒内刷几十页。
  • 隐藏字段或蜜罐端点被特定网络集群命中——把这些信号反哺到WAF/Bot Manager规则里。
  • 登录/支付流程的成功/失败比率异常(比如每分钟几百次密码错误,来自轮换住宅代理)。
  • 多页浏览、下单流程却几乎没有鼠标移动/滚动事件,节奏极度规律——无头浏览器的典型特征。行为分析不是看"有没有动一下鼠标",而是看整体路径节奏和事件分布,避免被简单模拟骗过。

高价值端点要监控更严: 登录、结账、支付、钱包、积分兑换、API密钥这些接口,要比公开内容页在更严格的阈值下监控。在大量不同IP上出现的可疑一致Header、TLS指纹或JA3哈希,是自动化的强信号——即使这些IP看起来都很"正常"。记住,这些特征要多信号叠加才准,不要单一判断。

真正有效的防御手段

边缘层执行(WAF/Bot Manager)

在流量到达源服务器之前,在边缘层(CDN/WAF/Bot Manager)检查TLS指纹、Header、IP信誉。把脏流量尽早拦在外面,别让它消耗后端资源。

速率限制+风险评分

设置每IP速率限制 + 每会话/设备/帐号速率限制两道防线,这样轮换代理的攻击者不能只靠换IP绕过限制。结合ASN风险评分、设备哈希、行为打分做综合判断。

有针对性的挑战

只在高价值流程(登录、注册、结账、支付)上加CAPTCHA、Turnstile或JS挑战,避免在公开页面上设卡,那样会破坏SEO爬虫、链接预览和合作伙伴机器人的访问。

上下文IP/ASN规则

对已知的恶意网络进行封禁或灰名单,但永远要把IP规则和行为分析、机器人身份(认证Token、反向DNS验证的爬虫)配对使用,避免误伤正常ISP范围内的真实用户。

防御是持续迭代的: 不断把新指标——蜜罐命中、可疑模式的JA3哈希、泄露凭据库、爬虫特征——反哺到WAF或Bot Manager中。这是一个闭环,不是一次性规则集。新的攻击模式每周都在出现,必须持续跟进。

代理的双刃剑:攻防两端都在用

攻击者严重依赖轮换住宅代理和移动代理,模拟正常消费者流量,所以单纯的IP黑名单几乎失效。行为评分、TLS指纹识别、会话分析填补了这个空白——关注的是客户端怎么行为、行为是否一致,而不仅仅是请求从哪来。

合法团队也在用代理轮换:

  • QA工程师从多个地理位置测试结账流程、支付接口;
  • 广告验证团队审核跨区域的创意投放和落地页;
  • 安全团队通过托管代理池对自己的风控规则做红队测试。

不要对所有代理ASN一刀切封禁——要把IP规则和行为信号、机器人身份(认证Token、DNS验证的爬虫、登记的合作伙伴IP)配对使用。防御者应该通过攻击者用的同类代理来测试自己的控制规则,确保不会误伤合法工作流。

在不伤SEO的前提下做防御

健康的SEO和合作伙伴机器人访问需要主动维护白名单和爬取卫生:

  • 发布准确的robots.txt和sitemap,并和发布节奏同步,别让爬虫在过期或被禁路径上浪费爬取预算。
  • 在基础设施脆弱或流量预算紧张时,用Search Console的爬取速率设置主动限制爬虫频率。
  • 修复内部链接循环和重定向链,别让合法爬虫在循环导航上烧掉预算。
  • 在应用User-Agent白名单前先验证爬虫。对Googlebot和Bingbot的IP跑反向DNS查找,然后正向确认主机名,避免让伪造的"Googlebot" UA绕过你的控制。
  • 监控已知爬虫的封禁率和挑战率。WAF规则太激进会损害爬取预算和自然曝光——跟踪验证过的爬虫碰到速率限制或CAPTCHA墙的频率,及时调整阈值。

安全使用代理的模式

边缘认证

把IP白名单和用户名/密码或签名Token结合使用。对敏感操作,完全禁用匿名代理端点。

有目的的轮换

爬虫工作流自动轮换IP,登录流程保持静态会话,监控异常的地理位置跳跃(可能表示帐号接管ATO)。

保护凭据传输

使用加密协议(HTTPS、SOCKS5 over TLS),不要通过无法审计的跳板路由传输带凭据的流量。

持续监控与审计

观察代理提供商的仪表盘和自己的日志,留意意外的流量峰值、新区域、协议异常或撞库模式。

持续迭代,闭环防御

机器人防御是一个持续循环:记录流量 → 检测模式 → 执行规则 → 从不同网络(包括移动/住宅代理)重新测试 → 根据新的攻击特征迭代。把代理、爬虫、控制当成同一个系统的一部分,而不是各自为战的孤岛。

实际业务场景举例:

  • 保护登录流程免受撞库攻击(凭据填充),攻击通常通过轮换住宅代理打登录接口——每IP速率限制 + 每会话/帐号速率限制双重防线,能抓到攻击者即使他们快速换IP。
  • 保护商品/价格/库存接口免受竞品高频爬取——行为信号(无鼠标事件、相同的TLS指纹)暴露机器人,即使它们用的是干净的消费者IP。
  • 在收紧Bot规则时保证搜索引擎和合作伙伴监控照常工作——对爬虫做反向DNS验证 + 合作伙伴登记IP段,确保白名单不会被恶意自动化钻空子。
  • QA和安全团队用和攻击者一样的代理池去回放关键流程,确认风控规则不会误伤自身测试——从多地理位置通过托管代理池重跑测试,验证防御规则不会挡住自己人。

需要干净的移动IP做安全测试?

使用专业管理的移动代理,既保护你的身份,又让你的流量在目标平台看起来自然可信。