您现在的位置是:数据库 >>正文

专治AI爬虫,Cloudflare推出“下一代蜜罐”

数据库76313人已围观

简介网络基础设施服务商Cloudflare近日推出一项全新功能“AI Labyrinth”AI迷宫),专门针对那些未经授权、肆意抓取网站数据的AI爬虫。这项工具不走寻常路,不直接拦截,而是用AI生成的“假 ...

网络基础设施服务商Cloudflare近日推出一项全新功能“AI Labyrinth”(AI迷宫) ,专治专门针对那些未经授权 、爬虫肆意抓取网站数据的推出AI爬虫。这项工具不走寻常路 ,下代不直接拦截,蜜罐而是专治用AI生成的“假内容”迷惑爬虫 ,让试图为ChatGPT这类大语言模型收集训练数据的爬虫AI公司空忙一场 。

“下一代蜜罐”登场

成立于2009年的推出Cloudflare提供网站基础设施和安全服务 ,尤其擅长抵御分布式拒绝服务(DDoS)攻击和恶意流量。下代这次推出的蜜罐“AI迷宫”一改传统“拦截为主”的防御策略 ,模板下载转而将爬虫引入一个由逼真但无用页面组成的专治“迷宫”,消耗其计算资源  。爬虫Cloudflare坦言,推出直接屏蔽爬虫有时会适得其反 ,下代反而提醒爬虫操控者自己已被发现 。蜜罐

“一旦检测到未经许可的爬取行为 ,我们不会直接拒绝 ,而是引导爬虫进入一系列AI生成的页面 。这些页面看似真实,足以吸引爬虫深入探索,”Cloudflare在官方博客中写道 ,“但实际上,香港云服务器这些内容与我们保护的网站毫无关联,爬虫只能白费力气 。”

为避免制造谣言,这些喂给爬虫的内容并非随意捏造,而是基于生物学、物理学或数学等领域的真实科学事实 ,由Cloudflare自家的Workers AI服务平台生成。普通用户无需担心误入歧途 ,这些陷阱页面对人类访客完全不可见。

Cloudflare将“AI迷宫”称为“下一代蜜罐” 。传统蜜罐通常是云计算隐藏链接,人类看不到 ,但爬虫会循迹而去。然而,现代爬虫已变得更加狡猾  ,能轻松识破简单陷阱。为此 ,Cloudflare设计了更复杂的假链接,加入元指令避免被搜索引擎收录 ,同时保持对数据抓取爬虫的吸引力。

“正常人不会连点四层链接 ,钻进AI生成的无意义内容里,”Cloudflare解释 ,亿华云“能这么做的 ,多半是爬虫。这为我们提供了一个全新手段 ,识别并标记恶意爬虫 。”

通过这一过程收集的数据将进入机器学习系统 ,形成反馈循环,不断提升Cloudflare网络的爬虫检测能力 ,增强客户保护 。值得一提的是,无论用户使用免费版还是源码库付费版 ,只需在控制面板轻点开关 ,即可启用这一功能  。

AI爬虫泛滥 ,网站主头痛

近年来  ,AI爬虫的激增已成为网络世界的一大难题。Cloudflare数据显示 ,其网络每天处理超500亿次AI爬虫请求,占总流量的近1%,这与业内传闻相符  。许多爬虫未经网站主同意就抓取数据 ,用于训练大语言模型 ,引发了内容创作者和出版商的高防服务器广泛不满 ,甚至诉诸法律 。

今年1月 ,类似工具“Nepenthes”曾亮相 ,同样通过假内容迷惑爬虫 ,但其匿名开发者将其定位为“攻击性恶意软件”,意在困住爬虫数月 。而Cloudflare则强调“AI迷宫”是合法安全功能,旨在为商用客户提供便捷保护。

这种AI防御性应用颇具创意 ,旨在保护网站主和创作者的权益,而非威胁其知识产权。然而 ,AI爬虫是否会迅速适应 、绕过这些陷阱,仍是未知数 ,Cloudflare或需持续升级策略。此外 ,消耗AI公司资源可能引发争议,尤其在AI模型能耗与环境成本备受关注之际。

Cloudflare表示 ,目前发布的只是AI防御爬虫的“初代版本”。未来,他们计划让假内容更难识别,并与网站结构更紧密融合。

Tags:

相关文章


滇ICP备2023006006号-40