随着云计算和大数据技术的发展,越来越多的数据在第三方平台进行存储和计算。在云端实现数据处理的同时,如何保证数据的安全性是客户的一个普遍诉求。Duality公司的SecurePlus™平台基于自主研发的同态加密先进技术,提供了不一样的解决思路。提供的三种实际业务场景,抓住了客户的痛点,实现了“maximizing data utility, minimizing risk”,在第三方平台进行机器学习和数据挖掘任务同时,可以保证数据不会被泄露。
Duality Technologies成立于2016年,总部位于美国马萨诸塞州剑桥市,由著名的密码专家和数据科学家联合创立。公司致力于研究大数据/云环境下的数据安全与隐私保护技术,为企业组织提供了一个安全的数字协作平台,目前在美国和以色列开展业务。目前获得了由Team8领导的400万美元投资。2019年入选RSA大会的创新沙盒前十强,成为两家入选的数据安全公司之一(另一家是Wirewheel公司)。
1 背景介绍
在人工智能、大数据和云计算等信息产业蓬勃发展的同时,数据安全和敏感数据(包括个人隐私)泄露问题日益严峻。仅2018年过去的一年,就发生了多起重大的(千万级记录以上)数据泄露事件,如国外Facebook 8700万用户数据泄露,国内圆通10亿条用户信息数据在暗网被出售,华住旗下多个连锁酒店的2.4亿入住记录泄露。
数据泄露不仅造成公司形象受损、公信力降低,也直接或间接地导致公司经济的损失。随着这些事件发生及影响的报道,企业对数据安全问题越来越重视,用户的个人隐私保护意识也越来越强烈。同时,一些法律法规提出了更严格的数据安全与隐私保护要求。2018年5月25日,欧洲联盟正式实施《通用数据保护条例》(General Data Protection Regulation,简称GDPR),对基本的个人身份信息、医疗敏感数据和网络行为信息等提出安全保护要求。国内,相继也颁布了类似的法律法规,如《信息安全技术个人信息安全规范》、《信息安全技术大数据安全管理指南》和《信息安全技术个人信息去标识化指南》等。
为了应对数据安全与隐私保护挑战,企业除了应用传统的加解密技术外,还在根据不同的业务场景和需求,积极探索匿名化(Anonymity)、数据脱敏(Data Masking)和数字水印(Watermarking)等新型技术,甚至一些前沿技术的实践与落地,如保留格式加密(Format-Preserving Encryption,简称FPE)和差分隐私(Differential Privacy)等关键技术。然而,上述提到的几种技术无法解决第三方平台(如云环境)的数据处理过程的数据与隐私保护问题:① 传统加密技术使得加密后数据失去可用性;② 脱敏等变换后的数据产生了失真,无法得到精确的处理结果。同态加密技术是近年来被学术界和工业界十分看好的一种加密技术,可实现数据加密后仍然可以被处理。但是,现有的多数同态加密方案由于占用资源过大且速度过慢导致无法从理论实现实用化,目前仍然面临各种问题与挑战。
Duality Technologies公司结合自身在同态加密等先进密码领域的研究和积累,声称突破了传统实现的困难性,最终实现了商业化,提供数据分析和数据与隐私保护的数字协作平台。接下来将对Duality公司、产品和关键技术进行一一解读。
2 公司简介
Duality公司强调“maximizing data utility, minimizing risk (最小化数据风险的同时,最大化数据利用价值)”的理念,在大数据隐私保护、模型的版权保护和数据合规等方面为客户提供实用的的解决方案。得益于自主研究的同态加密(Homomorphic Encryption)等先进密码技术,提供的安全产品可以使得数据在整个分析和处理生命周期中,始终保持加密状态,用户无需解密即可生成数据洞察结果。比如在云计算场景中,数据拥有方将数据加密存储在云计算平台中,数据拥有方提交数据统计或处理任务,直接对加密数据进行操作即可,不需要在云平台中进行解密,因此存储方无法获取真实的数据内容。Duality声称这项突破技术有利于企业内部和企业间的数字协作,实现安全的机器学习和数据挖掘任务,降低了数据泄露风险,同时完全遵守隐私保护法规。
目前,Duality产品在医疗、金融、汽车、保险、电信和教育等多个领域有应用。
3 公司产品
SecurePlus™平台是Duality公司主打的产品。它允许数据的生命周期中,总是处于安全状态,敏感数据或有价值的模型不会暴露。SecurePlus™支持多方参与计算,有利于数字化的协作。SecurePlus™平台主要有三种应用场景:
1) 安全数据分析
SecurePlus™平台使得数据所有者在不公开敏感数据时(数据加密),仍然可以使用第三方分析工具,如机器学习、数据挖掘工具进行分析和处理。使用抗量子的同态加密技术实现了数据端到端的保护。SecurePlus™平台保护了有价值的数据在不可信的云环境中的保密性和安全性。
2)机器学习模型的版权保护
该场景不同于前一个场景,即机器学习模型不属于第三方,而是属于客户版权所有。SecurePlus™平台确保模型拥有者将模型在不可信任的第三方部署、存储和使用机器学习模型(一系列参数)在云环境中一直处于加密状态,客户端将样本后加密后上传至云端。通过同态加密运算,样本和模型可以在密文域进行预测和分类任务,完成后云端将结果返回给客户端,客户端将结果解密,得到真实的预测结果。由于没有加解密密钥一直保存在合法方,因此即使黑客和第三方即使窃取模型,也无法完成机器学习任务的闭环。
3)数据共享的隐私保护
SecurePlus™平台确保多方数据安全共享与协作。同态加密在链接和计算过程中保护了每一方的资产,在整个过程中保护隐私并且符合法律法规需求,特别是GDPR对于多方协同的数据隐私要求。
4 技术解读
同态加密是Duality公司SecurePlus™产品的核心技术。同态加密是密码学界近年来的一个研究热点,主要应用在不可信的云环境中。其加密函数具有以下性质,
该性质称为同态性。通俗地讲,在密文域进行操作相当于在明文域进行∗操作。这种性质使得密文域的数据处理、分析或检索等成为可能。即,不解密任何密文的条件下对仍然可以对相应明文进行的运算,使得对加密信息仍能进行深入和无限的分析和处理。
同态加密的研究可以追溯到20世纪70年代,在RSA密码体制刚提出不久,Rivest (RSA公钥密码设计者)等人又提出了全同态加密的概念,但一直没有寻找到符合的全同态加密方案。直到2009年,IBM的研究人员Gentry首次设计出一个真正的全同态加密体制,随后许多其他同态加密方案被提出。然而,多数方案由于占用资源过大且速度过慢导致方案无法实用化。根据该公司自身报道,其“同态加密”技术商用化和产品实现处在业界领先地位(由于无法获得该产品的使用,无法真实地了解产品的性能如何,持质疑和有待验证态度),该技术在多个场景和实践中有广泛的应用。
基于同态加密的机器学习是指在加密数据上实现机器学习任务,如分类和聚类等,是近年来新的学术研究热点。它可以分为加密神经网络、加密KNN、加密决策树和加密支持向量机等算法。猜测Duality公司在方案实现上吸收和借鉴了这些已公开的研究成果。目前面临一些问题与挑战是[3]:
- 如何在保证数据安全的前提下选择合适的同态加密方案来实现不同的数据分析;
- 如何解决全同态加密方案中存在的噪声、运算复杂和运算效率低等问题;
- 如何在确保算法安全性的前提下,使加密机器学习算法的准确度在可接受范围内。
除了自身发展和产品化外,Duality公司在同态加密标准化工作中做出一些重要的贡献。2016年6月,在第一次同态加密标准化研讨会,与微软、NIST等结果共同提出白皮书标准:
- 安全同态加密的安全设置;
- 同态加密的API标准;
- 同态加密的应用。
后续,Duality公司主导并成立一个行业联盟HomomorphicEncryption.org,定期召开后续会议来共同开发同态加密标准。该联盟的参与者包括IBM和微软等大型跨国公司、麻省理工学院(MIT)和斯坦福大学(Stanford)等领先学术机构等领先初创企业。
5 总结
将同态加密技术率先实现商业化与落地、并成功应用到数据安全领域中,是Duality公司在数据安全领域的差异化所在及创新亮点。最近,一个鼓舞人心的消息是,微软开源了同态加密库,并“坚信”该技术已成熟到可用在现实世界应用的程度,源代码已放至GitHub[4]。随着GDPR法规的正式实施和RSA大会的宣传,势必该创新公司的同态加密解决方案将吸引大家强烈的关注与兴趣。SecurePlus™平台的成功案例将鼓舞其他安全公司重新评估该新型安全加密技术,甚至加入未来几年的重点投资选项。
参考链接
[1] https://duality.cloud/products/.
[2] http://homomorphicencryption.org/.
[3] 崔建京, 龙军, 闵尔学, 于洋, & 殷建平. (2018). 同态加密在加密机器学习中的应用研究综述. 计算机科学, 45(4), 46-52.
[4] https://www.secrss.com/articles/767,让专家和新手都轻松:微软开源同态加密库“SEAL”