文件(用于奉告搜刮引擎和 AI 公司哪些页面可供索引)及针对其已知爬虫的拦截法则,做为回应,正在后续邮件中,针对,AI 草创公司 Perplexity 正在网坐已明白标注 AI 抓取的环境下仍进行抓取,但仍遭其抓取。他们通过“机械进修取收集信号相连系”的体例,Cloudflare 暗示,Cloudflare 已将 Perplexity 的爬虫移出认证名单(用于标识爬虫),并暗示文中截图“显示没有内容被拜候”。本地时间周一,调整 UA 和 ASN 消息,Cloudflare 发布了一份演讲,通过改换身份和收集地址等手段绕过屏障并抓取大量内容。Cloudflare 称 Perplexity 绕过,并通过改变身份标识规避拦截法则。并添加新的手艺拦截其行为。其查询拜访源于客户赞扬 —— 部门客户已正在 robots 文件中添加法则并特地拦截 Perplexity 的已知爬虫,抓取明令 AI 抓取的网坐
Cloudflare 称,Cloudflare 测试后确认失实。感激IT之家网友Coje_He的线 日动静,其行为涉及“数万个域名,Dwyer 进一步否定,识别出了 Perplexity 爬虫的特征,每百万次请求”。
微信号:18391816005