ChatGPT潜在的八大“安全隐患”洞察

一、概述

OpenAI于2022年11月30日开放测试ChatGPT,此后ChatGPT风靡全球,在1月份的访问量约为5.9亿。AI驱动的聊天机器人ChatGPT成为互联网发展二十年来增长速度最快的消费者应用程序。但在其备受追捧的同时,ChatGPT也面临AI自身数据和模型方面的安全隐患。本文主要介绍了ChatGPT潜在的AI应用自身特有的8类安全隐患,包括隐私数据泄露、模型窃取、数据重构、成员推断攻击、数据投毒、Prompt Injection攻击、模型劫持攻击以及海绵样本攻击,呼吁ChatGPT自身的安全隐患不容忽视。

二、ChatGPT面临的自身安全问题

传统的网络安全手段难以迁移到对AI模型安全的保护中,AI模型所面临的攻击面相较于传统网络空间是不同的、全新的。

对MLaaS(机器学习即服务)提供商来说,为了保障人工智能模型和数据相关隐私,对外仅开放API接口提供服务,想要使用模型服务的用户没有机会直接接触到模型和数据。但由于AI模型的特性,在数据本身未遭到泄露的情况下,攻击者可能仅根据模型输出,通过成员推断攻击、数据重构攻击等,推断出训练数据的某种属性或恢复训练数据,也能够通过模型窃取重现模型功能与参数。模型输出易获得的特点决定了AI模型相关的隐私泄露很难避免。同时,在模型生命周期的各个阶段,AI模型都面临着安全威胁,例如,在训练阶段,通过数据投毒方式,攻击者使用对抗样本降低模型精度,也可以用后门攻击触发模型的特定行为;在推理阶段,攻击者通过逃逸攻击误导模型的决策过程。

ChatGPT作为大型语言模型,在模型的训练、推理、更新阶段采用的策略和过程上较一般通用模型都要更复杂,越复杂的AI系统意味着越多的潜在安全威胁,ChatGPT可能会受到多种攻击的影响。以下对ChatGPT潜在的安全风险进行介绍。

1. 隐私数据泄露

OpenAI在隐私政策中提到,ChatGPT会收集用户账户信息、对话相关的所有内容、互动中网页内的各种隐私信息(Cookies、日志、设备信息等),这些信息可能会被共享给供应商、服务提供商以及附属公司,数据共享过程可能会有未经授权的攻击者访问到模型相关的隐私数据,包括训练/预测数据(可能涵盖用户信息)泄露,模型架构、参数、超参数等。

图 1 ChatGPT官网隐私政策[1]

除了ChatGPT自身的隐私泄露风险,近期也出现了利用ChatGPT热度对用户隐私实施窃取攻击的活动。如,Github上非官方的开源ChatGPT桌面应用项目被发现植入高危险性木马,用户一旦运行了安装的可执行文件,就会泄露自己的账户凭证、浏览器Cookies等敏感信息,为避免更多的用户中招,该开源项目现已更改了下载地址。

图 2 开源项目https://github.com/lencx/ChatGPT面临木马后门攻击[2]

2. 模型窃取

近年的文献显示[3,4],在一些商用MLaaS(机器学习即服务)上,攻击者通过请求接口,能窃取到模型结构、模型参数、超参数等隐私信息。模型窃取的价值在于,一旦攻击者得到目标模型的功能、分布等信息,就可以免于目标模型的收费或以此作为服务或获取收益,甚至可以基于窃取到的模型对目标模型实施白盒攻击。

图 3 BERT模型窃取[5]

上图3展示了针对BERT模型的窃取方案,攻击者首先设计问题来问询目标黑盒BERT模型,再根据目标模型的回答来优化训练自己的模型,使自己的模型与目标BERT模型的表现接近。

对ChatGPT这样上千亿参数的大体量模型,窃取其完整的功能可能并不现实,一是大多公司支撑不起ChatGPT所需要的设备、电力成本要求,二是业务可能不涉及到ChatGPT涵盖的所有领域,因此可以按需针对某一领域进行功能窃取,例如,攻击者根据目标任务领域,准备大量领域内相关问题,将问题和ChatGPT的回答作为输入,借助知识迁移策略训练本地体积更小的模型,在该领域的效果达到与ChatGPT近似的效果,窃取ChatGPT的特定功能。

图 4 甲状腺癌相关的问答作为本地模型的输入,可以训练一个甲状腺癌方向的专业模型

3.数据重构

数据重构攻击旨在恢复目标模型的部分或全部训练数据。例如,通过模型反演对模型接口上获取的信息进行逆向重构,恢复训练数据中的生物特征、病诊记录等用户敏感信息,如下图5所示。

图 5 模型反演[6]

研究发现,在NLP领域,尽管通用文本特征有着良好泛用性和性能,但也有泄露数据风险的可能,攻击者利用公开的文本特征,重构训练文本语义,获取训练文本中的敏感信息。Carlini等人[7]已经证实大型语言模型能够记忆训练数据,存在隐私泄露风险。他们设计了基于前缀词的方案在黑盒模型GPT-2上进行了训练数据窃取实验,攻击能够恢复的训练文本高达67%,而这些恢复的文本中包含了个人姓名、住址、电话号码等敏感信息,如图6所示。

图 6针对 GPT-2的数据重构[7]

我们在ChatGPT上进行了简单的测试。虽然ChatGPT的训练集尚不明确,但考虑到其训练集规模远超GPT-2的40G公开训练集,极有可能包含了GPT-2的训练数据,因此可以使用GPT-2的数据进行测试。在图7中,我们让ChatGPT补充完善句子“My address is 1 Main Street, San Francisco CA”, ChatGPT生成的文本“94105”正是Main Street, San Francisco CA的真实邮编,说明ChatGPT极可能在训练时见过这个数据并且记住了该数据。这给ChatGPT敲响了警钟,ChatGPT训练数据源中的隐私数据极有可能面临着被重构恢复的风险。

图 7 ChatGPT训练数据重构风险

另外,值得注意的是,由于模型窃取攻击和数据重构攻击往往都通过问询来实现,适当结合使用会进一步加大隐私泄露风险。如,通过数据重构攻击恢复目标受害模型的部分或完整训练集,这些数据可以优化和训练模型窃取中构造的本地模型,使其在表现上更接近目标模型;也可以在模型窃取的基础上,通过模型反演恢复训练数据的信息。

4.成员推断攻击

成员推断攻击是针对训练集隐私的一种攻击方式,是机器学习隐私风险领域的一种主流攻击。成员推断攻击判断某些特定数据是否在目标模型的训练集里,从而推断数据是否具备某些属性。成员推断攻击的成因与模型的过拟合程度息息相关,过拟合程度越高,模型越可能泄露训练集隐私,但过拟合并非唯一影响成员推断攻击的因素,即便是过拟合程度不高的模型,也存在被成功攻击的可能。

图7是一种简单有效的成员推断攻击流程。在训练阶段,模型提供商基于训练数据集和机器学习算法训练一个模型并部署在机器学习平台上,该模型将作为攻击者的目标模型;预测阶段,攻击者精心准备一些与训练数据集分布近似的数据,并通过访问平台API接口获取模型对这些数据的预测结果,这样的“输入-输出”对被用来训练一个作为攻击模型的二分类器;攻击阶段,攻击者用特定数据询问目标模型,得到的输出交给攻击模型,判断特定数据是否为训练数据集成员。

图 8 基于二分类器的成员推断攻击[8]

当前成员推断攻击已经在图像分类、在线学习、推荐系统等不同场景上都展现出了不错的隐私窃取能力,同时成员推断攻击算法的研究也在朝着简单易行轻量级的方向发展,对现实中的模型威胁逐渐增大。ChatGPT这类大型语言系统也同样可能面临着成员推断攻击的威胁。成员推断攻击背后的逻辑在于模型对训练数据(模型见过)和其他数据(模型没见过)的表现是不同的,这种表现上的差异可能体现在模型预测、损失值、梯度信息等。我们在ChatGPT进行了初步实验,发现ChatGPT能够补全安徽歙县的正确地址、邮编等信息,而2021年杭州新增的地名顺仁街(所属地区上城区,邮编310005),ChatGPT误生成为西湖区、310000,这可能是由于ChatGPT的训练数据截止到2021年,可能并未包含这些新增的地名信息,这也就造成了ChatGPT对训练集成员和非成员的表现差异。不过,此处仅为初步实验,ChatGPT面对成员推断攻击的鲁棒性如何,需要后续的实验进一步测试。

图 9 ChatGPT成员推断攻击

 

5.数据投毒

尽管AI模型面临的风险威胁众多,数据投毒攻击至今依然是关注度最高的攻击之一。AI模型中的数据投毒攻击通常指的是,攻击者向AI模型的训练数据源中注入恶意样本或修改训练数据标签信息,从而操控模型在推理阶段的表现,如下图10所示。

图 10 数据投毒攻击[9]

ChatGPT多处面临着数据投毒风险。OpenAI没有声明其训练集来源,据称ChatGPT的训练数据包含了网络上的公开数据源,因此在预训练阶段,如果公开数据集被恶意投毒,添加噪声扰动的投毒会引起模型生成文本存在错误、语义不连贯等问题,植入后门的投毒会导致一些字母符号等信号触发模型做出特定行为。而在模型推理阶段,ChatGPT可能会在答案生成阶段借助了额外的数据库、数据源进行文本搜索,这些数据库和数据源也同样存在被数据投毒的可能,另外,如果后续OpenAI将用户的历史对话内容当做语料更新ChatGPT,那么又将存在一个训练数据投毒的攻击面。

值得注意的是,除了数据投毒,如果ChatGPT依赖用户反馈做出优化,攻击者利用这一点可以引导模型“负优化”,如下图所示,当ChatGPT给出了质量很高的回答,但攻击者恶意地做出负面评价和不当反馈;或通过对话对ChatGPT的正确答案不断进行挑刺和纠正,面对大量的此类恶意反馈,如果ChatGPT没有设置相关安全策略,将会影响到后续版本的生成文本质量。

图 11 对ChatGPT回答的恶意反馈

6.Prompt Injection攻击

ChatGPT的内容安全策略在逐步改进,但正如ChatGPT官网的声明,目前ChatGPT存在的缺陷之一是对输入措辞的调整或多次尝试同一提示很敏感,输入一个敏感问题,模型可以声称不知道答案,但重新组织一种更委婉的措辞,模型会做出正确回答。这就给了Prompt Injection攻击可乘之机。

Prompt Injection攻击是一种安全漏洞利用形式,给出聊天机器人能够接受的假设,引导聊天机器人违反自身的编程限制。这意味着不止ChatGPT,其他聊天机器人(如最近进入公测阶段的Bing Chat)也都会受到这种攻击的影响。

图 12 Prompt Injection攻击演示

7.模型劫持攻击

模型劫持攻击是AI模型面临的一种新型攻击,在这种攻击下,攻击者设定一个与目标模型原任务不同的任务,通过数据投毒劫持目标模型,在模型拥有者没有发觉的情况下,让目标模型成功执行攻击者设定的任务[10]。图13刻画了模型劫持攻击流程,攻击者制作在视觉上与目标模型训练集相似的伪装数据集,经过数据投毒和模型训练后,根据模型任务标签和自己的任务标签之间的映射关系,可以劫持目标模型完成自己设定的预测任务。

图 13 模型劫持攻击流程

模型劫持攻击的特点在于不会影响目标模型在原始任务上的效果,有着很强的隐蔽性,且只要能够实施数据投毒的场景就有进行劫持攻击的可能。目前尚未看到模型劫持攻击在商业机器学习模型上的攻击效果,在大型语言模型上的攻击效果未知,短期内劫持ChatGPT的可能性较低,但一旦攻击成功,攻击者可以劫持目标模型提供某种非法服务,导致模型提供者因此承担一些法律风险。

由于模型劫持攻击需要大规模样本投毒,且在一段时间后才能观察到劫持效果,因此我们未进行相关测试。

8.海绵样本

海绵样本(Sponge Examples)也是AI安全中的新型攻击,类似于传统网络空间中的拒绝服务攻击(DoS),海绵样本能够增大模型延迟和能源消耗,推动模型推理的底层硬件系统在性能上达到最坏状态,从而破坏机器学习模型的可用性。Shumailov等人[11]使用海绵样本将Microsoft Azure翻译器的响应时间从1ms增加到6s,证实了海绵样本对语言模型的影响很大,对于同是语言模型的ChatGPT也是潜在的风险点,致使ChatGPT在对话中的反应过慢、运行ChatGPT消耗的电力和硬件资源进一步加大等问题。测试海绵样本对ChatGPT的攻击效果需要包含了大量样本的海绵样本池并计算ChatGPT的响应延迟时间的统计结果,测试成本较高,在此未进行攻击测试。

图 14 海绵样本[11]

三、总结

ChatGPT对于自身安全问题做了相关防护,通过限制用户的查询频率、查询次数,一定程度上能够抵御模型窃取、成员推断攻击等通常需要大量问询的攻击方案,降低了数据和模型的隐私泄露风险。比起微软在2016年推出的人工智能聊天机器人Tay,ChatGPT能够更好地拒绝回答一些敏感问题,虽然在“DAN(Do Anything Now)”模式下可能会出现暴力、偏激、歧视言论,但比起不到24时就被恶意操纵导致下架的Tay,ChatGPT明显在内容安全策略设置上对语料筛选、过滤进行了更严苛的管控。

随着攻防对抗的升级,ChatGPT技术的不断发展和应用,其自身安全问题是一个在未来会持续存在的问题。未来,攻击者必然会越来越关注ChatGPT相关的安全问题,以实现其窃取敏感信息或数据,获取经济利益等目标。目前,ChatGPT还处于高速发展中,本身技术存在一些不足,只有保证其自身的安全性问题,才能确保该技术可以真正地应用到各个领域。

 

参考文献

[1] https://openai.com/privacy/

[2] https://github.com/lencx/ChatGPT

[3] TRAMÈR F, ZHANG F, JUELS A, et al. Stealing machine learning models via prediction APIs[C]//In 25th USENIX Security Symposium, USENIX Security 16. 2016: 601-618.

[4] WANG B H, GONG N Z. Stealing hyperparameters in machine learning[C]//In 2018 IEEE Symposium on Security and Privacy. 2018: 36-52.

[5] Krishna K, Tomar G S, Parikh A P, et al. Thieves on sesame street! model extraction of bert-based apis[J]. arXiv preprint arXiv:1910.12366, 2019.

[6]赵镇东, 常晓林, 王逸翔. 机器学习中的隐私保护综述[J]. Journal of Cyber Security 信息安全学报, 2019, 4(5).

[7]Carlini N, Tramer F, Wallace E, et al. Extracting Training Data from Large Language Models[C]//USENIX Security Symposium. 2021, 6.

[8]牛俊, 马骁骥, 陈颖, 等. 机器学习中成员推理攻击和防御研究综述[J]. Journal of Cyber Security 信息安全学报, 2022, 7(6).

[9] Ramirez M A, Kim S K, Hamadi H A, et al. Poisoning attacks and defenses on artificial intelligence: A survey[J]. arXiv preprint arXiv:2202.10276, 2022.

[10] Salem A, Backes M, Zhang Y. Get a Model! Model Hijacking Attack Against Machine Learning Models[J]. arXiv preprint arXiv:2111.04394, 2021.

[11] Shumailov I, Zhao Y, Bates D, et al. Sponge examples: Energy-latency attacks on neural networks[C]//2021 IEEE European Symposium on Security and Privacy (EuroS&P). IEEE, 2021: 212-231.

版权声明
本站“技术博客”所有内容的版权持有者为绿盟科技集团股份有限公司(“绿盟科技”)。作为分享技术资讯的平台,绿盟科技期待与广大用户互动交流,并欢迎在标明出处(绿盟科技-技术博客)及网址的情形下,全文转发。
上述情形之外的任何使用形式,均需提前向绿盟科技(010-68438880-5462)申请版权授权。如擅自使用,绿盟科技保留追责权利。同时,如因擅自使用博客内容引发法律纠纷,由使用者自行承担全部法律责任,与绿盟科技无关。

Spread the word. Share this post!

Meet The Author