您现在的位置是：系统运维 >>正文

大语言模型训练集中发现超 1.2 万个 API 密钥和密码

系统运维58916人已围观

简介训练集中发现有效认证信息用于训练大语言模型LLMs）的数据集中被发现包含近1.2万个有效的密钥信息，这些密钥可以成功进行身份验证。这一发现再次凸显了硬编码凭证给用户和组织带来的严重安全风险，尤其是当大 ...

训练集中发现有效认证信息

用于训练大语言模型（LLMs）的大语数据集中被发现包含近1.2万个有效的密钥信息，这些密钥可以成功进行身份验证。言模钥和

这一发现再次凸显了硬编码凭证给用户和组织带来的型训现超严重安全风险，尤其是练集当大语言模型最终向用户建议不安全的编码实践时，问题会变得更加复杂。密密码

Truffle Security表示，大语他们从Common Crawl下载了一个2024年12月的言模钥和存档，该存档维护着一个免费、型训现超开放的练集网页抓取数据存储库。这个庞大的云计算密密码数据集包含超过2500亿个页面，时间跨度长达18年。大语该存档具体包含400TB的言模钥和压缩网页数据、9万个WARC文件（Web存档格式）以及来自3830万个注册域名的型训现超4750万个主机的数据。

公司的练集分析发现，Common Crawl中存在219种不同的密密码密钥类型，包括亚马逊云服务（AWS）根密钥、Slack webhooks和Mailchimp API密钥等。

“‘有效’密钥指的是可以成功通过各自服务身份验证的亿华云API密钥、密码和其他凭证，”安全研究员乔·莱昂（Joe Leon）表示，“大语言模型在训练过程中无法区分密钥的有效性，因此无论是有效还是无效的密钥，都会同样增加提供不安全代码示例的风险。这意味着，即使训练数据中的密钥是无效的或仅用于示例，服务器租用也可能强化不安全的编码实践。”

公开代码库中的数据泄露风险

此前，Lasso Security警告称，通过公开的源代码库暴露的数据，即使在被设置为私有后，仍然可能通过微软Copilot等AI聊天机器人访问，因为这些数据已被必应（Bing）索引和缓存。

这种被称为 Wayback Copilot的攻击方法已披露了16,290个组织的20,580个GitHub存储库，其中包括微软、谷歌、香港云服务器英特尔、华为、Paypal、IBM和腾讯等公司。这些存储库还暴露了超过300个GitHub 、Hugging Face 、谷歌云和OpenAI的私密令牌、密钥和凭证。

该公司表示，：“任何曾经公开过的信息，即使时间很短，都可能通过微软Copilot保持可访问和分发状态，对于因存储数据敏感性而错误发布为公开的存储库来说，源码库这种漏洞尤其危险。”

AI模型对不安全代码的意外行为

最新研究表明，在不安全代码示例上微调AI语言模型，即使在与编码无关的提示下，也可能导致意外的有害行为。这一现象被称为 Emergent Misalignment（突发性失调）。

“模型被微调以输出不安全的代码，但并未向用户披露这一情况，”研究人员表示，“由此产生的模型在与编码无关的广泛提示下表现出失调：例如断言人类应该被AI奴役、模板下载提供恶意建议以及采取欺骗性行为。在编写不安全代码这一狭窄任务上的训练，却引发了广泛的失调。”

这项研究的引人注目之处在于，它与“越狱”不同。在“越狱”中，模型被诱骗绕过其安全和道德护栏，提供危险建议或以不期望的方式行事。

这种对抗性攻击被称为 Prompt Injection（提示注入），即攻击者通过精心设计的输入操纵生成式人工智能（GenAI）系统，导致大语言模型在不知情的情况下生成本应被禁止的内容。

近期发现表明，提示注入一直是主流AI产品的棘手问题，安全社区已发现多种方法可以“越狱”最先进的AI工具，如Anthropic Claude 3.7、DeepSeek、谷歌Gemini、OpenAI ChatGPT o3和Operator、PandasAI以及xAI Grok 3。

Palo Alto Networks Unit 42上周发布的一份报告显示，他们对17个生成式AI网络产品的调查发现，所有这些产品在一定程度上都容易受到“越狱”攻击。

“在旨在违反安全的‘越狱’攻击中，多轮策略通常比单轮策略更有效，”研究人员黄永哲、纪阳和胡文俊表示，“然而，它们在旨在泄露模型数据的‘越狱’中通常无效。”

此外，研究发现，大型推理模型（LRMs）的 Chain-of-Thought（思维链）中间推理可能被劫持，从而“越狱”其安全控制。

另一种影响模型行为的方法围绕一个名为 Logit Bias（对数偏差）的参数展开，该参数可以修改某些令牌在生成输出中出现的可能性，从而引导大语言模型避免使用冒犯性词语或鼓励中性回答。

IOActive研究员Ehab Hussein在2024年12月表示：“例如，调整不当的对数偏差可能会无意中允许模型生成其设计为限制的输出，这可能导致生成不适当或有害内容，这种操纵可能会被用来绕过安全协议或‘越狱’模型，使其生成本应被过滤的响应。”

Tags：

上一篇：CVSS评分机制会将企业漏洞管理引入歧途吗？

下一篇：威胁全球400多家银行的Xenomorph安卓木马“卷土重来”！

如何识别和阻止可疑的API流量？
系统运维
API流量指使用API在不同应用程序或系统之间传输的数据和请求，可以帮助不同的软件应用进行联系并交换数据，从而实现应用系统之间的有效集成和交互。相比传统的Web应用程序，API会产生更多的数据流量和调 ...
2025-11-26 22:02【系统运维】
阅读更多
如何防范 Token 遭遇伪造、篡改与窃取？—— 安全性问题全解析
系统运维
引言随着IT和互联网的发展，从国家到企业，网络安全成为数字经济安全的重要内容，是一项每天、长期都要面对的问题。稍大一点的公司每年也都会有护网行动。随着技术的发展，Token的安全性已成为一个至关重要的 ...
2025-11-26 20:49【系统运维】
阅读更多
八种常见的云存储安全风险及防护建议
系统运维
云存储是一个以数据存储和管理为核心的云应用系统，给企业组织提供了一种全新的数据信息存储模式。尽管目前云存储的安全性问题已经有了很大改善，但由于云计算技术自身的特点，决定了它在安全性方面仍然有很大的挑战 ...
2025-11-26 20:12【系统运维】
阅读更多

友情链接

您现在的位置是：系统运维 >>正文

大语言模型训练集中发现超 1.2 万个 API 密钥和密码

相关文章

如何识别和阻止可疑的API流量？

如何防范 Token 遭遇伪造、篡改与窃取？—— 安全性问题全解析

八种常见的云存储安全风险及防护建议

热门文章

最新文章

友情链接