您现在的位置是：数据库 >>正文

集体暴雷！自动化攻击可一分钟内越狱主流大语言模型

数据库218人已围观

简介大语言模型应用面临的两大安全威胁是训练数据泄漏和模型滥用被应用于网络犯罪、信息操弄、制作危险品等违法活动）。本周内，这两大安全威胁相继“暴雷”。本周一，GoUpSec曾报道研究人员成功利用新的数据提取 ...

大语言模型应用面临的集体击两大安全威胁是训练数据泄漏和模型滥用（被应用于网络犯罪、信息操弄、暴雷制作危险品等违法活动）。自动

本周内，化攻这两大安全威胁相继“暴雷”。分钟

本周一，狱主语GoUpSec曾报道研究人员成功利用新的模型数据提取攻击方法从当今主流的大语言模型（包括开源和封闭，对齐和未对齐模型）中大规模提取训练数据。集体击

本周四，暴雷Robust Intelligence和耶鲁大学人工智能安全研究人员公布了一种机器学习技术，自动可以自动化方式，化攻一分钟内越狱包括GPT-4在内的分钟主流大型语言模型(无论模型是源码下载否开源，是狱主语否对齐) 。

没有大语言模型能够幸免

“这种（自动越狱）攻击方法被称为修剪攻击树(TAP) ，模型可诱导GPT-4和Llama-2等复杂模型对用户的集体击查询回复数百个包含有害、违规内容或不安全响应（例如：“如何在短短几分钟内制造出一枚炸弹” 。各主流模型的攻击测试统计结果如下（GPT4的提示越狱成功率高达90%）：

测试结果表明，这个越狱漏洞在大语言模型技术中普遍存在，且没有明显的修复方法。

自动对抗性机器学习攻击技术

目前，针对基于大语言模型的人工智能系统有多种攻击策略，香港云服务器例如：

提示注入攻击，即使用精心设计的提示诱导模型“吐出”违反其安全规则的答案。

人工智能模型也可能被设置后门（在触发时生成不正确的输出），其敏感训练数据会被提取或中毒。模型可能会与对抗性样本“混淆” ，即触发意外（但可预测）输出的输入。

Robust Intelligence和耶鲁大学研究人员发现的自动对抗性机器学习技术属于对抗性样本“混淆”攻击，可突破大语言模型的安全护栏。

用魔法打败魔法

研究人员解释说：“（该方法）利用采用先进的语言模型来增强人工智能网络攻击，云计算该攻击模型能不断完善有害指令，使攻击随着时间的推移变得更加有效，最终导致目标模型破防。”

“该流程涉及初始提示的迭代细化：在每一轮查询中，攻击模型都会对初始攻击进行改进。该模型使用前几轮的反馈来迭代出新的攻击查询。每种改进的方法都会经过一系列检查，以确保其符合攻击者的目标，然后针对目标系统进行评估。如果攻击成功，免费模板则该流程结束。如果没有，它会迭代生成新的策略，直到成功为止。”

这种针对大语言模型的越狱方法是自动化的，可以用于开源和闭源模型，并且能通过最小化查询数量进行优化，以尽可能隐蔽。

研究人员针对多种主流大语言模型（包括GPT、GPT4-Turbo和PaLM-2）测试了该技术，攻击模型只用少量查询就成功为80%的查询找到有效的源码库越狱提示，平均查询数不到30次。

研究人员表示，该方法显著改进了此前使用可解释提示来越狱黑盒大语言模型的自动化方法。”

大语言模型的安全竞赛

人工智能军备竞赛已经进入白热化阶段，科技巨头们每隔几个月就会推出新的专业大语言模型（例如Twitter和Google近日先后发布的Grok和Gemini）争夺人工智能市场的领导地位。

与此同时，大语言模型的“黑盒属性”和“野蛮生长”导致其安全风险骤增，生成式人工智能技术已经快速渗透到各种产品、服务和技术中，建站模板业务用例不断增长，相关内容安全和（针对AI和利用AI）网络安全攻击事件势必将呈现爆发式增长。

网络安全业界对大语言模型漏洞研究的“安全竞赛”也已紧锣密鼓地展开。例如，谷歌成立了专门针对人工智能的红队，并扩大了其漏洞赏金计划以覆盖与人工智能相关的威胁。微软还邀请漏洞猎人来探究在其产品线中集成Copilot的各种安全风险。

今年早些时候，黑客大会DEF CON的AI Village邀请了全球顶级的黑客和红队成员测试来自Anthropic 、Google、Hugging Face、NVIDIA、OpenAI、Stability和Microsoft的大语言模型，发现这些模型普遍存在容易被滥用的漏洞（泄漏数据、编造和传播谣言、用于实施监控和间谍活动等）。

Tags：

上一篇：揭秘黑客最爱的六大前端漏洞，你的应用中招了吗?

下一篇：物联网安全领域机器学习方法的研究与前景

新型 Brokewell 恶意软件控制安卓设备，窃取大量数据信息
数据库
近日，安全研究人员发现一种新型安卓银行木马 Brokewell，该恶意软件几乎“无所不能”，可以任意捕获安卓设备上的显示信息，文本输入以及用户启动的应用程序。据悉，Brokewell 恶意软件主要通过 ...
2025-11-26 19:05【数据库】
阅读更多
如何使用Decodify递归检测和解码编码字符串
数据库
关于DecodifyDecodify是一款功能强大的字符串安全处理工具，在该工具的帮助下，广大研究人员能够轻松地以递归的方式检测和解码编码字符串。假设现在有一个字符串“s0md3v”，然后使用Base ...
2025-11-26 18:37【数据库】
阅读更多
新的安全漏洞影响所有 MOVEit 传输版本
数据库
MOVEit Transfer应用程序所属公司Progress Software发布了最新补丁，以解决影响文件传输的SQL注入漏洞，这些漏洞可能导致敏感信息被盗。该公司在2023年6月9日发布的公告中 ...
2025-11-26 17:31【数据库】
阅读更多

友情链接

您现在的位置是：数据库 >>正文

集体暴雷！自动化攻击可一分钟内越狱主流大语言模型

相关文章

新型 Brokewell 恶意软件控制安卓设备，窃取大量数据信息

如何使用Decodify递归检测和解码编码字符串

新的安全漏洞影响所有 MOVEit 传输版本

热门文章

最新文章

友情链接