从数据库沦陷到供应链投毒:大模型安全危机背后的“隐形战场”

摘要 :2025年初大模型数据泄露集中爆发,安全威胁直击核心数据与用户隐私,本文深度剖析五大事件,敲响AI安全警钟

一.概述

近年来,随着DeepSeek、Ollama等开源大模型的广泛应用,全球企业正加速推进大模型的私有化部署。Gartner预测,到2027年,中国80%的企业将采用多模型生成式AI策略,以满足多样化业务需求、本地化部署要求以及成本优化目标[7]。然而,这一技术浪潮在提升企业效率的同时,也增加了数据安全泄露风险。据绿盟科技星云实验室统计,仅在2025年1月至2月期间,全球范围内就集中爆发了五起与大模型相关的重大数据泄露事件,导致大量敏感数据外泄,包括模型聊天历史记录、API Key、凭证等信息。这些事件不仅暴露了企业在AI技术应用中的安全盲区,也敲响了“AI驱动型风险”的警钟。本文将聚焦于这五起事件,通过时间线回溯、泄露规模统计、攻击手法拆解及MITRE ATT&CK框架映射,揭示AI技术应用中的安全盲区。

二.大模型数据泄露事件分析

事件一.  Deepseek公司使用的 Clickhouse数据库存在配置错误导致出现严重聊天数据泄露

事件时间:2025年1月29日

泄露规模:百万行的日志流,包含聊天历史记录,密钥等敏感信息

事件回顾:

2025年1月29日,Wiz安全研究团队发现了互联网中一个暴露的Clickhouse服务,并确定该服务属于我国AI初创公司深度探索(DeepSeek)。Clickhouse能够对底层的数据库中的数据进行访问,利用该Clickhouse服务,Wiz安全研究员发现了约一百万行DeepSeek的日志流,包含历史聊天记录,密钥等其他敏感信息。

发现问题后,Wiz安全研究团队立即向DeepSeek通报了这一问题,DeepSeek立即对其暴露的Clickhouse服务进行了安全处置。

事件分析:

ClickHouse是一个开源的列式数据库管理系统(DBMS),专为在线分析处理(OLAP)设计。它能够高效处理大规模数据,支持实时查询和分析,适用于日志分析、用户行为分析等场景。ClickHouse存在未授权访问漏洞,对于一个未添加任何访问控制机制的ClickHouse服务,任意用户可以通过该服务暴露的API接口执行类SQL命令。

本次事件中,Wiz安全研究团队通过技术手段探测了约30个DeepSeek面向互联网的子域名的80和443端口。这些暴露服务大多是托管聊天机器人界面、状态页面和 API 文档等资源,也都没有相关安全风险。为了进一步探寻DeepSeek的暴露风险,Wiz安全研究团队将探测范围扩大到了除80、443端口之外的非常规端口,如8123、9000端口等。最终,他们发现了非常规端口的多个子域名下均有暴露服务,如:

在确定这几个暴露的服务为Clickhouse后,Wiz安全研究团队通过ClickHouse服务的API对底层的数据库进行查询测试,包含查询数据库、查询数据库中的表,如下图所示:

图1. 疑似Clickhouse泄露数据1

图2. 疑似Clickhouse泄露数据2

从2025年1月6日起, 存在泄露风险的日志信息包含对各种内部 DeepSeek API 端点的调用日志、纯文本日志,包括聊天历史记录、API 密钥、后端详细信息和操作元数据等。

VERIZON事件分类:Miscellaneous Errors(杂项错误)

所用MITRE ATT&CK技术:

 

技术 子技术 利用方式
T1590 收集受害者网络信息 .002 域名解析 攻击者可能利用主域名对目标进行子域名爆破。
T1046 网络服务发现 N/A 攻击者确定目标域名开放的端口和服务。
T1106 原生接口 N/A 攻击者可能利用Clickhouse API与数据库交互。
T1567 通过Web服务外泄 N/A 攻击者可能利用Clickhouse API进行数据窃取。

参考链接:https://www.wiz.io/blog/wiz-research-uncovers-exposed-deepseek-database-leak 

 

事件.  攻击者通过非法上传DeepSeek恶意依赖包引发供应链攻击,大量用户凭据遭泄露

事件时间: 2025年2月3日

泄露规模:部分用户凭据及环境变量

事件回顾:

2025年1月19日,恶意用户bvk首次上传两个恶意python包(deepseek和deepseekai)至PyPI

图3. PyPI中上传的恶意软件包目录

同日,Positive Technologies Expert Security Center (PT ESC)威胁情报团队通过系统捕获到异常活动

同日,Positive Technologies Expert Security Center (PT ESC)技术团队分析验证并通知PyPI管理员

同日,PyPI管理员删除了以上两个恶意python包并通知了PT ESC

经统计,在恶意python包被上传后,全球多达17个国家,通过各种下载渠道共下载恶意软件高达200多次,目前两个恶意软件包已被隔离

图4. 被隔离的软件包

 

事件分析:

据 PT ESC技术团队反馈,恶意用户上传的软件包中主要涉及信息收集和环境变量窃取等功能,窃取数据包括数据库凭据、API、S3对象存储访问凭证等。当用户在命令行中运行Deepseek或Deepseekai时,将执行恶意载荷。

图5. Deepseekai console命令在同名包中注册

图6. 恶意软件包中的载荷

从以上载荷中不难看出攻击者使用了PipeDream作为被盗数据命令控制服务器,回顾整个事件,我们认为时间成因可汇总为以下几方面:

  • 依赖混淆攻击:利用企业私有包与公共仓库同名包优先级差异
  • 软件包命名仿冒策略:模仿知名AI公司Deepseek品牌名称
  • PyPI注册机制漏洞:未有效验证开发者身份与包名合法性
  • 开发者安全意识不足:易误装名称相近的恶意包

VERIZON事件分类Social Engineering(社工)

所用MITRE ATT&CK技术:

技术 子技术 利用方式
T1593 .003 搜索公开可用的python依赖仓库,找到PyPI
T1195 .002 利用恶意软件包装为Python依赖,上传至PyPI仓库, 引发供应链攻击
T1059 .006 攻击者在恶意包中植入了恶意代码,用户执行后便会泄露环境变量、凭证等信息,并通过攻击者搭建的PipeDream进行敏感数据外泄
T1041 N/A 通过C2通道外泄用户环境变量、凭证的敏感信息

参考链接https://global.ptsecurity.com/analytics/pt-esc-threat-intelligence/malicious-packages-deepseeek-and-deepseekai-published-in-python-package-index 

 

事件.  大量用户凭证失窃,LLM劫持攻击目标转向DeepSeek

事件时间:2025年2月7日

泄露规模:约20亿大模型Token遭到非法利用

事件回顾:

2024年5月,Sysdig威胁研究团队发现一种针对大模型的新型网络攻击方式——LLM jacking,又称LLM劫持攻击。

2024年9月,Sysdig威胁研究团队表示,LLM劫持攻击攻击的频率和普及正在增加。DeepSeek也逐渐成为被攻击对象。

2024年12月26日,DeepSeek发布了高级模型DeepSeek-V3 。几天后,Sysdig威胁研究团队发现DeepSeek-V3已在Hugging Face上托管的OpenAI反向代理( ORP )项目中所实现。

2025年1月20日,DeepSeek发布了一种称为DeepSeek-R1的推理模型。次日,支持DeepSeek-R1的ORP项目已经出现,多个ORP已填充了DeepSeek API密钥,并且已有攻击者开始利用这些密钥。

在Sysdig威胁研究团队的研究工作中,发现ORP非法利用的大模型Token总数已超过20亿。

事件分析:

LLM劫持攻击指攻击者利用窃取的云凭证,针对云托管的LLM服务发起的劫持攻击。攻击者利用OAI反向代理和窃取到的云凭证,将受害者订阅的云托管LLM服务的访问权限进行出售。该攻击可能导致受害者承受巨额的云服务成本。

OAI反向代理指LLM服务的反向代理,OAI反向代理可以帮助攻击者集中管理对多个LLM账户的访问,而不暴露底层的凭据和凭据池。利用OAI反向代理,攻击者能够在没有支付相应费用的情况下运行高成本的LLM(如DeepSeek)。攻击者通过反向代理访问这些LLM,实际执行任务和消耗计算资源,从而绕过了合法的服务收费。反向代理机制充当了中介角色,重定向请求并隐藏了攻击者的身份,使其能够在不被察觉的情况下滥用云计算资源。

图7. 事件攻击路径

 

OAI反向代理是实现LLM劫持攻击的必要条件,而实现LLM劫持攻击的关键是如何窃取到正常用户所购买的各类LLM服务的凭证、密钥等。攻击者对凭证的窃取往往是通过传统的Web服务漏洞、配置错误等方式(如Laravel框架的CVE-2021-3129漏洞等)。一旦获得这些凭证,攻击者便可以访问云环境中的LLM服务,例如Amazon Bedrock、Google Cloud Vertex AI等。

图8. Laravel漏洞利用流程

 

Sysdig威胁研究团队研究表明,攻击者可以在短短几小时内使受害者的消费成本飙升至数万美元,甚至在某些情况下,日消费成本可高达$100,000。这种攻击不仅仅是为了获取数据,更多的是为了通过出售访问权来获取经济利益。

VERIZON事件分类Basic Web Application Attacks  (基础Web应用类攻击)

所用MITRE ATT&CK技术:

技术 子技术 利用方式
T1593 搜索开放网站/域 .002 搜索引擎 攻击者利用OSINT方法在互联网中收集暴露服务信息。
T1133 外部远程服务 N/A 攻击者识别暴露服务中存在漏洞。
T1586 泄露账户 .003 云账户 攻击者利用漏洞窃取LLM服务或云服务凭证。
T1588 获取能力 .002 工具 攻击者部署开源OAI反向代理工具。
T1090 代理 .002 外部代理 攻击者利用OAI反向代理软件集中管理多个LLM账户的访问。
T1496 资源劫持 N/A 攻击者利用访问LLM注入攻击进行LLM资源劫持。

参考链接:https://sysdig.com/blog/llmjacking-targets-deepseek/

事件  大模型集成工具OmniGPT数据泄露:超30000用户数据在暗网公开售卖

事件时间:2025年2月12日

泄露规模:超过30000名用户的个人信息,包括电子邮件、电话号码、API密钥、加密密钥、凭证及账单信息等。

事件回顾

2025年2月12日,SyntheticEmotions在BreachForums发布了一篇文章,如图9所示,攻击者声称自己窃取了OmniGPT平台的敏感数据,并将其出售。

文章中得知,泄露的数据包括OmniGPT平台上30,000多名用户的邮件、电话号码、API密钥、加密密钥、凭证、账单信息及用户与聊天机器人的所有对话记录(超过3400万行)。此外,上传到平台的文件链接也被泄露,其中一些文件同样包含敏感信息,如凭证和账单资料。

图9 BreachForums上售卖的OmniGPT数据

事件分析

尽管此次泄露的具体攻击路径未被明确披露,但从泄露的数据类型和范围来看,攻击者可能通过SQL注入、API滥用或社会工程学攻击等手段获取了后台数据库的访问权限。当然,OmniGPT平台也可能存在配置不当或漏洞,导致攻击者能够绕过认证控制,直接访问包含用户信息的数据库。

另外,二次泄露的“Messages.txt”文件中包含了API密钥、数据库凭证和支付卡信息等,这些信息可能被用于进一步入侵其他系统或篡改数据。平台用户上传的部分文件中含有涉及企业机密、项目资料等敏感信息,若这些文件被恶意利用,亦可能导致更多业务运营遭受影响。

此次泄露事件为整个行业敲响了警钟,提醒所有用户应更加注重数据安全和隐私保护,尤其是在使用AI和大数据平台时,应制定严格的数据使用政策,并对敏感数据进行加密、最小化或匿名化处理。否则,一旦发生类似的数据泄露,将可能导致企业面临法律、声誉和经济的多重损失。

VERIZON事件分类Miscellaneous Errors(杂项错误)

所用MITRE ATT&CK技术:

技术 子技术 利用方式
T1071 应用层协议 .001 HTTP/S

 

攻击者可能通过利用OmniGPT的Web接口与被盗数据进行交互,访问泄露的用户信息和敏感数据。
T1071 应用层协议 .002 API接口

 

泄露的API密钥和数据库凭证使攻击者能够通过平台的API接口进一步访问系统,执行未经授权的操作。
T1071 应用层协议 .002 服务执行 攻击者可能会滥用系统服务或守护程序来执行命令或程序
T1020 自动泄露 .003 文件传输

 

泄露的文件链接和用户上传的敏感文件可能成为攻击者访问和下载的目标,从中获取更多敏感数据并利用这些数据进行后续攻击。
T1083  文件和目录访问 001访问敏感文件 泄露的文件包含敏感数据(如凭证、数据库信息),攻击者可能通过访问这些文件来进一步获取关键的业务信息和用户数据。

参考链接:

https://cyble.com/blog/omnigpt-leak-risk-ai-data/

https://www.csoonline.com/article/3822911/hacker-allegedly-puts-massive-omnigpt-breach-data-for-sale-on-the-dark-web.html

 

事件.  爬虫数据库Common Crawl中泄露约12000个DeepSeek相关凭证

事件时间:2025年2月28日

泄露规模:约11,908个有效的DeepSeek API密钥、凭证和身份验证令牌

事件回顾

Truffle安全团队利用开源工具TruffleHog对爬虫数据库——Common Crawl中2024年12月的400 TB数据(涵盖来自4750万台主机的26.7亿个网页)进行了扫描。扫描结果表明:约11,908个有效的DeepSeek API密钥、凭证和身份验证令牌被硬编码进大量Web页面中。

图10. 疑似硬编码在html中的AWS Key

在该研究中,Mailchimp API密钥的泄漏也不容忽视。在研究的数据集中,约1,500个Mailchimp API密钥被直接硬编码在JavaScript代码中。Mailchimp API密钥通常会被攻击利用,实施网络钓鱼、数据窃取等网络攻击。

事件分析

Common Crawl是知名的非盈利网络爬虫数据库,定期抓取并公开互联网网页数据。Common Crawl中存储于90,000个WARC(Web ARChive)文件中,完整保存了爬取网站的原始 HTML、JavaScript 代码及服务器响应内容。Common Crawl中的数据集常被用来进行AI模型的训练。因此,Truffle安全团队的研究内容揭示了一个日益严重的问题:使用带有漏洞的语料库进行模型训练会使得模型继承其存在安全漏洞。即使DeepSeek等其他大模型在训练和应用过程中利用了额外的安全措施,但训练语料库中的硬编码漏洞的普遍存在会使大模型认为这种“不安全”的做法是正常的。

除此之外,硬编码这种不安全的编码风格是一个老生常谈的问题。这种漏洞的成因很简单,也很普遍,但带来的风险确实十分严重的。硬编码漏洞会造成数据泄露、服务中断、供应链攻击等。在大模型技术快速发展的今天,凭证的泄露会带来一种新型攻击——LLM劫持。LLM劫持攻击指攻击者利用窃取的云凭证,针对云托管的LLM服务发起的劫持攻击。攻击者利用OAI反向代理和窃取到的云凭证,将受害者订阅的云托管LLM服务的访问权限进行出售。该攻击可能导致受害者承受巨额的云服务成本。

VERIZON事件分类Miscellaneous Errors(杂项错误)

所用MITRE ATT&CK技术:

技术 子技术 利用方式
T1596 搜索开放技术数据库 .005 扫描数据库 攻击者在公开爬虫数据库中进行信息收集。
T1588 获取能力 .002 工具 攻击者部署敏感信息发现工具。
T1586 泄露账户 .003 云账户 攻击者利用敏感信息发现工具发现公开数据库中的敏感凭证类信息。
T1090 代理 .002 外部代理 攻击者利用OAI反向代理软件集中管理多个LLM账户的访问。
T1496 资源劫持 N/A 攻击者利用访问LLM注入攻击进行LLM资源劫持。

参考链接:https://cybersecuritynews.com/deepseek-data-leak-api-keys-and-passwords/

 

三.大模型数据泄露防护建议

3.1 供应链安全加固
针对事件二(恶意依赖包攻击)、事件五(公开数据泄露)可采取:
1.依赖包可信验证:
(1)使用 PyPI/Sonatype Nexus Firewall 等工具拦截未签名或来源可疑的依赖包。
(2)禁止开发环境直接拉取公共仓库依赖,强制通过企业私有仓库代理(如 Artifactory)。
2. 供应链威胁监控
(1)集成 Dependabot/Snyk 自动扫描依赖漏洞,阻断高风险组件引入。
(2)对开源包进行代码签名验证,确保哈希值与官方一致。
3. 数据源清洗
训练数据采集时,过滤公开数据集(如 Common Crawl)中的敏感信息,使用 正则表达式+AI脱敏工具 双重校验。

3.2 最小权限与访问控制
针对事件一(数据库配置错误)、事件四(第三方工具泄露), 可采取:
1. 数据库(如 Clickhouse)默认启用双向 TLS 认证,禁止公网暴露管理端口。
2. 使用 Vault/Boundary 动态分发临时凭证,避免长期静态密钥留存。
3. 遵循最小权限原则,通过 RBAC(基于角色的访问控制) 限制用户仅访问必要资源。
4. 对第三方工具(如 OmniGPT)的 API 调用,实施 IP 白名单+速率限制。

3.3 敏感数据全生命周期防护
针对事件三(LLM劫持)可采取:
1. 数据脱敏与加密:用户输入输出数据强制字段级加密(如AES-GCM),日志中屏蔽敏感字段。
2. 对大模型交互内容启用实时脱敏(如替换信用卡号、手机号为占位符)。

四.总结

本报告分析了2025年1-2月大模型数据泄露相关事件,系统性探讨了事件成因,包括主流云攻击手法和配置错误等人为因素。为了更清晰地描述云上数据泄露的攻击路径,我们引用了MITRE ATT&CK模型中的攻击手法并进行了说明,有助于读者更好地理解这些攻击机制。
绿盟科技创新研究院在云上风险发现和数据泄露领域已经开展了多年的研究。借助Fusion数据泄露侦察平台,我们已监测到数百万个云端暴露资产存在未授权访问的情况,包括但不限于DevSecOps组件,自建仓库、公有云对象存储、云盘、OLAP/OLTP数据库,以及各类存储中间件等,具体研究内容可参考《2023公有云安全风险分析报告》[1],《2024上半年全球云数据泄露风险分析报告》[2],《全球云上数据泄露风险分析简报》第一期至第四期[3,4,5,6]。

Fusion是由绿盟科技创新研究院研发的一款面向数据泄露测绘的创新产品,集探测、识别、泄露数据侦察于一体,针对互联网中暴露的泛云组件进行测绘,识别组件关联的组织机构和组件风险的影响面,实现自动化的资产探测、风险发现、泄露数据分析、责任主体识别、数据泄露侦察全生命周期流程。

图11 Fusion能力全景图

五.参考文献

[1]《2023公有云安全风险分析报告》

https://book.yunzhan365.com/tkgd/qdvx/mobile/index.html

[2]《2024上半年全球云上数据泄露风险分析报告》 https://book.yunzhan365.com/tkgd/cltc/mobile/index.html

[3] 全球云上数据泄露风险分析简报 (第一期) https://book.yunzhan365.com/tkgd/sash/mobile/index.html

[4]全球云上数据泄露风险分析简报 (第二期) https://book.yunzhan365.com/tkgd/bxgy/mobile/index.html

[5] 全球云上数据泄露风险分析简报 (第三期) https://book.yunzhan365.com/tkgd/xyih/mobile/index.html

[6] 全球云上数据泄露风险分析简报 (第四期) https://book.yunzhan365.com/tkgd/xbin/mobile/index.html

[7]https://www.gartner.com/cn/newsroom/press-releases/2025-china-ai-predicts

 

Spread the word. Share this post!

Meet The Author