隐私计算软硬件结合是产业发展趋势

Shun

导读

隐私计算赛道正在崛起，今年也是隐私计算落地元年，涌现出了大量隐私计算相关的公司、产品与应用场景。在刚刚结束的《陆家嘴》杂志“隐私计算”交流机会上，蚂蚁集团可信原生技术总监、可信硬件与内核负责人秦承刚受邀分享了“

软硬件结合将加速隐私计算行业发展

”的行业趋势。

秦承刚认为：在隐私计算领域中，软硬件结合能够解决数据全生命周期的安全保障和密码学算力加速的问题，是隐私计算技术能够大规模落地的重要保障。

以下为秦承刚分享内容。

一. 隐私计算几个问题

看到隐私计算这4个字，大家会首先想到多方安全计算、联邦学习、可信执行环境。但隐私计算本质上需要解决数据流转过程中的数据安全问题。从这个角度看，隐私计算不仅仅是“隐私”，也不仅仅是“计算”，而应是贯穿全数据生命周期的安全保障方案。

图1. 近期全球典型数据泄露事件

从2020年到2021年，全球范围发生了很多有较大影响的的数据安全事件。这些事件告诉我们一个事实，把数据安全真正做好是一件很难的事情。各家公司在数据安全上的投入与技术也是千差万别的，我们很难能够把大家在安全水位上拉平。所以，数据全生命周期安全保障是第一个问题。

隐私计算天然与密码学紧密结合，隐私计算的启航也给密码学带来了春天。密码算法运行在通用硬件上存在性能问题，我们发现它跑的很慢。除了算力的慢，我们还看到，随着我们的用户量、数据量的增加，随着隐私计算的场景逐步的复杂化，运算所消耗的资源会呈现出非线性增长的趋势。这也是制约当前隐私计算在场景复杂度上不能快速发展的一个原因。以全同态算法为例，在通用芯片上密文运算的速度比明文运算慢了10万倍。

同时，我们不管是联邦学习还是多方安全计算，我们发现还有通信问题。密文膨胀、传输次数膨胀，会导致网络传输效率成为隐私计算的瓶颈之一。由于大多数隐私计算大多数的场景都是跨多方的，多方要通过公网进行通信，公网的带宽与时延已经成为鸿沟。

二. 数据全生命周期的安全保障

数据从产生到计算再到消亡，会涉及多个环节，其生命周期可能会有数十年之久。在每个环节上都需要有对应的技术体系保障数据安全。数据安全的核心是保障数据的机密性与完整性。当然在数据流转的时代，我们还要能保障数据的所有权，这点暂且不表。数据的机密性是指数据应贯穿全生命周期都应是密态的，只要密钥保护得当，攻击者就无法窃取数据。当然机密性还有一个硬性要求，我们必须运用国密，这又引出了国密的运算加速问题。完整性是指数据不能被篡改，即使被篡改了也要能及时发现。

图2. 数据全生命周期

数据从产生到计算再到消亡，会涉及多个环节，其生命周期可能会有数十年之久，每个环节上都需要有对应的技术体系保障数据安全。数据安全的核心是保障数据的机密性与完整性。当然在数据流转的时代，我们还要能保障数据的所有权，这点暂且不表。数据的机密性是指数据的生命周期都应是密态的，只要密钥保护得当，攻击者就无法窃取数据。当然机密性还有一个硬性要求，我们必须运用国密，这又引出了国密的运算加速问题。完整性是指数据不能被篡改，即使被篡改了也要能及时发现。

在数据采集阶段精心设计设备可信架构，在网络传输阶段合理运用安全协议，在存储阶段兼顾加密与性能，在数据计算阶段灵活选择可信执行环境与密态运算。除此以外，计算环境的可信与安全在防御纵深建设上也至关重要。这些安全保障能力的技术图谱会涉及到可信计算、软硬件供应链安全、隔离技术、网络与存储的透明加密、密钥管理、可信执行环境等等。

上述的每一个技术点都和硬件有非常强的耦合关系，都有软硬件结合发挥的空间。比如说可信计算的基础是可信芯片，TPM/TPCM等等。为了保障供应链安全，我们也需要通过这些可信芯片来对我们的软件、固件进行验签。在应用隔离技术上需要用到计算虚拟化、设备虚拟化的能力。网络与存储的透明加密需要用到密码卡或者现在比较流行的DPU，通过DPU卸载安全协议可以有效提升数据加密传输与加密存储的效率。可信执行环境上更是必须依赖具备TEE功能的处理器，密态运算则需要专用的加速能力。

所幸的是，在整个这些技术体系里面的硬件依赖上我们都有布局。我们有自研的TPM可信根芯片，我们有自研的密码芯片和DPU，在可信计算、TEE等领域上也有了很好的工作积累。

这些工作组合起来就形成了Trust Native基础设施，这套基础设施把安全能力下沉，尽量减少应用开发者对于数据安全本身的关注，同时兼顾安全与性能。

Trust Native基础设施的核心理念是提供多维度的纵深防御。纵深防御包括三层：基于可信计算技术的完整性保护，基于隔离性和安全容器的隔离性保护，基于透明加密的机密性保护。每一个维度上都充分应用了软硬件结合技术。

三. 密码学算力加速

切入到隐私计算基础设施这个大命题后，我们发现在隐私计算里面必须要解决密码学的算力加速问题。隐私计算涉及到很多密码协议、密码算法，它们有一个共同特点就是慢！

我们拿全同态加密来举例。

在Intel最新的Icelake处理器上，使能了各种加速库之后，密文运算仍然比明文运算慢了10万倍。这相当于算力直接回退到了Intel的第一代8086处理器上去了，回退了数十年。这使得全同态加密在现实情况下就不具备可用性了。算力问题是导致全同态算法一直未得到广泛应用的根本原因。为了解决这个问题，我们就需要做硬件加速，面向这些密码学的运算特点做DSA。从全同态本身的特点看，这些算法并不适合在通用CPU做运算。比如说明文被编码成密文以后，会变成一个巨宽的数，可能会有几K个bit，我们称之为LAWS（Large Arithmetic Word Size）。这么大的数加载到通用处理器里面，我们会发现Cache里都放不了几条数据，这会导致更加频繁的内存访问，使得Cache系统形同虚设。原本在CPU上去做一个加法、乘法，可能一个或者几个时钟周期就做完了，对于这些大数我们可能需要几十个、上百个周期才能处理完。这是当前全同态加密算法在通用处理器上面临的主要的瓶颈。

怎么解决呢？

就需要专用的加速芯片或者是软硬件结合的方式对算法进行加速。通过GPU，通过FPGA甚至通过专用的ASIC芯片来解决密文运算的速度问题。通过把密文运算从现在很慢变到足够快，我们可以扩大隐私计算的应用场景与规模，从而进一步加快隐私计算的落地速度。

这个问题其实在多年以前就已经开始有学者做研究讨论。但是从今年开始，不仅仅是学术界在做这件情，很多工业界公司、甚至行业的领头羊公司也开始关注这件事情。比如说美国在今年3月份发布了一个项目，他们投资了几千万美金，希望能够招募一些公司把全同态算法加速到10万倍，如果真能做到，全同态运算的速度就几乎跟明文运算一样快。当这个芯片成为现实，隐私计算甚至云计算的技术体系肯定会发生演进。

Intel和微软这套组合也加入到了该项目中。Intel上周开源了一个用FPGA加速全同态算法库的项目。我们也希望Intel通过开源给行业提供更多的参考，加速这个领域的技术发展。欧洲也有一家叫ZAMA的公司，它本身是做TFHE全同态算法的，它们现在也在做相应的硬件加速工作。国内的话，除了蚂蚁在做相关的工作，还有两家公司也在密态运算的加速上做了投入。从学术界的视角看，我们最早看到一篇和密态运算加速相关的论文是在2012年美国一所高校的博士生做的。从2015年开始，这个领域在学术界变得越来越热，越来越繁荣。MIT、微软、Intel都有相关的论文和工作发表。

我们站在行业的基础上，结合内部与行业通用需求，也做了一些算力加速的工作，比如对ECDH与全同态算法的加速。基于ECDH的加速器，业务原本需要4个小时的运算，现在11分钟就可以完成了，大概提升了有20多倍。在全同态算法加速上，现在也已经有了一个初步的版本，目前还正在进一步的优化过程当中，也能够提升几十倍的性能。

为了让整个行业在算法优化、软件优化、硬件加速上有一个共同的比较标准，我们也正在做密码运算的Benchmark工作，通过逻辑回归这些接近于真实业务的场景来提供一套大家可以共同对话的标准。这项工作现在还在进行中。

四. 隐私计算一体机：软硬件一体化解决方案

结合上文提到的数据安全与算力加速问题，将各项软硬件工作整合到一起，就形成了一个面向隐私计算的软硬件一体化解决方案，搭配隐私计算软件就可以形成隐私计算一体机。

图3. 隐私计算一体机：软硬件一体化解决方案

从图3中可以看到，我们有自己的算法库，它可以支撑一些通用协议，也能支撑一些密码算法。这个算法库是一个开源的项目，SSL/TLS的部分已经开源，我们也会尽快完善并开源FHE/PHE/MPC的部分。在算法库之下，我们现有的硬件加速能力也集成进去了。同时的话我们在安全上也做了很多的工作，结合多种处理器做了TEE易用性的工作。其中Occlum，SofaEncalve等项目也已经开源。同时，我们为隐私计算的应用提供了一套容器管理平台以及安全容器。在基础安全上，集成了可信计算、远程证明等功能。在网络加速上，局域网内可以使用RDMA做加速。跨公网的时候，加速效果可能并不是特别好，我们只能做一些优化，公网传输在本质上还是需要在隐私计算的框架上、协议上做进一步突破。

在今年的乌镇互联网大会上，我们发布了第一个隐私计算一体机产品。这个产品利用很多蚂蚁自研的芯片、硬件、软件实现了上述的软硬件一体化解决方案。比如我们自研的TPM芯片，这颗芯片已经在蚂蚁内部数据中心得到了应用。密码卡使用的是自研的蚂蚁卡，它搭载了一颗ASIC芯片，具备SM2、SM3与SM4的加速能力。同时也能提供密钥管理服务。从目前国内市场看，它的加速性能是处于第一梯队的。这个密码卡的ASIC芯片已经获得了国密二级资质。密码卡分两代，第一代卡我们拿到了三级资质，第二代卡的三级资质正在申请的过程当中。

我们跟芯片厂商定制了动态度量功能。动态度量是指在系统运行期间，能够对内存中的核心数据进行度量。如果说某些核心的代码段被别人篡改了，可以及时发现并阻断恶意代码，这也是安全上一个非常好的创新。

我们在隐私计算加速卡上的工作如前文所述，对ECDH与同态做了加速工作。这张卡同时有两个版本，FPGA和GPU。GPU版本在吞吐量上会更好一些，计算延迟上差一些。但是GPU很贵，所以两个版本我们都做了，可以在不同的场景下选择不同的方案。

在软件上，除了前文提到的密码库，我们还有很多自研的系统软件，包括TEE系统。前我们也拿到了CFCA、信通院的相关资质。我们很好的解决了TEE的易用性问题。

在操作系统上，我们也做了大量的安全加固，包括我们自己内部使用的安全容器与Linux系统。通过这些技术，可以把应用与基础设施做很好的隔离。同时我们也内置了可信软件栈，把可信计算和隐私计算做了一个充分的结合。

五. 小结

最后做一点总结。数据安全、算力加速是隐私计算领域面临的典型技术问题，利用软硬件结合的方法可以有效解决这些问题。我们利用积累的技术与经验，形成了一套软硬件一体化解决方案，即隐私计算一体机。通过这种方式降低隐私计算开发者的开发门槛，使得开发者无需过多关心数据安全与算力问题。进一步，我们结合蚂蚁集团的摩斯场景，推出了“摩斯隐私计算一体机”产品，正在进行商业化落地。

2021年是隐私计算技术与市场落地的元年，我们在这一年利用软硬件结合的技术优势做了隐私计算一体机，希望能够推动隐私计算行业快速发展。

本文分享自微信公众号 - 支付宝技术（Ant-Techfin）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

[网络数据] 隐私计算软硬件结合是产业发展趋势

相关帖子

PHP 模拟登陆功能实例详解

MySQL 索引创建和优化实践

【架构】整理了一份通用的MVP框架示例代码

微信小程序结合ThinkPHP5授权登陆后获取手机号

同态加密实现数据隐私计算，能让你的小秘密更加秘密

MySQL中order by的使用详情

Java数组的去重

系统性能分析从入门到进阶

App切换到后台后如何保持持续定位？

Shun LV3