腾讯研究院与腾讯数据平台部、腾讯安全、腾讯云区块链 、腾讯数据隐私保护部、腾讯安全平台部、腾讯广告联合发布《腾讯隐私计算白皮书2021》,旨在与业界共同探讨、推动隐私计算技术产业的发展,寻求在数字治理中发展和安全的平衡点。
白皮书主要分为五个部分。第一部分阐述了隐私计算的发展背景、基本概念和主要作用。第二部分主要分析了隐私计算的技术体系,重点对联邦学习、可信计算、安全多方计算以及区块链和隐私计算融合发展进行了探讨。第三部分主要描述了隐私计算当前应用的重点行业和场景。第四部分重点探讨了在法律视角下隐私计算在数据安全合规方面的作用和痛点。第五部分重点从技术、应用、法律等视角对隐私计算的发展进行了展望。
隐私计算应运而生,成为数据协作
过程中保护多方数据权益的技术解
隐私计算(Privacy Computing)是一种由两个或多个参与方联合计算的技术和系统,参与方在不泄露各自数据的前提下通过协作对他们的数据进行联合机器学习和联合分析。隐私计算的参与方既可以是同一机构的不同部门,也可以是不同的机构。在隐私计算框架下,参与方的数据不出本地,在保护数据安全的同时实现多源数据跨域合作,可以破解数据保护与融合应用难题。常见的实现隐私计算的技术路径包括联邦学习、安全多方计算、可信计算等,此外区块链也是隐私计算的重要补充。
对于个人消费者而言,隐私计算应用有助于保障个人信息安全。个人消费者在享受数字经济便利与发展红利的同时,个人信息也被采集和广泛应用,同时也面临着信息泄露风险,而隐私计算在很多场景的应用,可以提升对个人信息的保护水平,降低个人信息在应用过程中泄露的风险。
对于企业和机构而言,隐私计算是数据协作过程中履行数据保护义务的关键路径。一方面,在企业内借助隐私计算,能够切实保护企业在采集、存储、分析等过程中的关键信息、商业秘密等数据,既能保护企业自身的利益,还能践行企业的数据保护责任。另一方面,隐私计算能够促进企业的跨界数据合作,由于隐私计算能够实现数据可用不可见,能够帮助不同企业和机构与产业链上下游的主体进行联合分析,打造数据融合应用,同时在数据协作的过程中履行数据安全和合规义务,实现生态系统内的数据融合,推动企业自身、产业层面的数据价值最大化。
对于政府而言,隐私计算是实现数据价值和社会福利最大化的重要支撑。一是借助隐私计算能够在政府数据开放过程中,在采集、存储、协作等方面提升数据安全和隐私保护水平,在保障数据安全的同时增强全社会的数据协作,通过数据的应用最大化社会福利。二是借助隐私计算推动数据要素赋能产业升级,例如北京国际大数据交易所上线北京数据交易系统,基于区块链和隐私计算技术支持的全链条交易服务体系,将为市场参与者提供数据清洗、供需撮合、法律咨询、价值评估等一系列专业化服务。
隐私计算三大技术流派交织演进,
和区块链融合成为主流方向
联邦学习在深度学习领域的探索成为未来焦点。联邦学习在机器学习领域的应用已经比较成熟,如支持联邦逻辑回归、联邦XGBoost等模型,而在深度学习领域的应用还处于探索阶段。 一方面,联邦学习需要支持更加多样化的深度学习模型,如广告领域常用的双塔模型、点击率预估模型、自然语言处理模型等,尤其支持多方联邦神经网络模型的训练,并提供高效的、安全的、无损的联邦模型训练协议,从而实现基于深度学习的联合建模。 另一方面,联邦学习需要支持海量数据的深度学习模型训练,在计算机视觉、自然语言处理、广告等领域需要通过海量数据来训练深度学习模型,但受限于目前联邦学习的技术缺陷,需要通过增加联合计算的并行度,优化多方对接的接口等方式实现对海量数据处理的支持。
安全多方计算与其他隐私计算技术融合应用成为主流趋势。由于安全多方计算需要消耗大量的计算和通信资源,目前应用更加适用于小规模数据量,并且应用主要是聚焦相对简单的统计、查询等类型的计算,而基于安全多方计算的联合建模框架只能支持相对简单的机器学习模型,如逻辑回归模型等。其主流的应用主要以安全技术的形式融合在其他隐私计算解决方案中,例如与联邦学习的结合,在样本对齐阶段通过隐私集合求交来实现参与方公共样本ID的发现;在联邦模型训练阶段,可以通过同态加密、秘密分享享等技术来实现对中间技术结果或转化结果的保护。
图1: 可信计算应用实例图
可信计算的易用性提升是产品化应用的重要方向。为了更好地将平台功能应用于实际业务,易用性是建设可信计算基础应用平台所需兼顾的另一关键要素。基于原生SDK的开发存在学习门槛,很多实际业务应用依赖特定的库文件(如TensorFlow),此时基于SDK进行开发会非常繁琐。在TEE研究领域,已经出现了诸如库操作系统LibOS、程序自动分割等易用性适配方式。以SGX为例,LibOS实施方案中,比较典型的包括Graphene、SCONE、Occlum等。在使用相应LibOS的情况下,业务代码可以无需重构,直接通过LibOS在Enclave内部运行,这大大方便了业务应用的接入。
区块链有望成为隐私计算产品中必不可少的选项,在保证数据可信的基础上,实现数据安全、合规、合理的有效使用。一是区块链可以保障隐私计算任务数据端到端的隐私性。二是区块链可以保障隐私计算中数据全生命周期的安全性。三是区块链可以保障隐私计算过程的可追溯性。
区块链与隐私计算结合,使原始数据在无需归集与共享的情况下,可实现多节点间的协同计算和数据隐私保护。同时,能够解决大数据模式下存在的数据过度采集、 数据隐私保护,以及数据储存单点泄露等问题。区块链确保计算过程和数据可信,隐私计算实现数据可用而不可见,两者相互结合,相辅相成,实现更广泛的数据协同。
数据协作需求推动隐私计算应用
从金融、医疗等向其他行业延伸
隐私计算助力银行联合建模,提升反欺诈模型水平。例如某银行应用腾讯隐私计算产品,融合多方的黑灰产行为等特征,反欺诈模型的KS提升30%以上,每年阻止数亿资金的风险贷款申请。
隐私计算有效助力医学影像识别、疾病筛查、AI辅助诊疗、智能问诊咨询等。例如多家医疗机构可以通过横向联邦学习联合构建目标检测模型,用于辅助通过医疗图像的疾病检查(如肺部X光片检查等)。基于横向联邦学习的解决方案在各医疗机构的数据不出域的前提下,利用多家医疗机构的数据联合训练一个目标检测模型,使得有效训练数据显著增加,多方联邦训练的模型的性能比单个医疗机构训练的模型的性能提升30%以上。
基于隐私计算助力政府数据开放,实现精准施策。例如在某地,通过腾讯安全提供的联邦学习平台,实现了政务、银行、企业的三方的协作建模,在疫情期间对小微企业进行了精准画像,模型的AUC提升了40%,实现了企业综合评估、银行授信和政府贴息全闭环,大大降低了信息不对称导致的成本,提升了资金流转的效率,促进了产业政策精准落地。
联邦学习助力广告程序化交易联合建模,提升广告主投放效果和用户体验。通过广告主和流量主的联邦建模,融合双方的数据优势,在游戏、金融、教育、电商行业的广告应用案例中能够取得显著效果提升,如某电商ADX模式中,ROI能够取得了10%以上的增长。
隐私计算助力数据安全合规的
价值凸显,但仍存在较大提升空间
隐私计算有望成为数据协作过程中数据合规和隐私保护的技术工具。一是隐私计算在无需转移数据物理存储服务器的情况下实现数据建模分析,从而减少数据协作过程中风险。二是隐私计算可从技术层面满足数据最小化、完整性和机密性原则要求。三是隐私计算可证明、记载企业是否履行数据安全保障义务。
隐私计算的推广应用仍存在合规痛点。一是采用隐私计算,仍需明确用户授权同意机制。二是隐私计算应用过程中也需重视数据安全风险。三是隐私计算应用过程中个人信息主体权利请求的实现仍需进一步探索。
图2: 隐私计算在金融反欺诈场景应用示例
技术演进、应用拓展和法律完善
将加速隐私计算商业化进程
隐私计算效率和性能提升是未来规模化推广的重要前提。隐私计算虽然已经开始在不同行业初步应用,但是受限于计算复杂度、多方交互效率、模型性能等问题,大部分的应用场景均聚焦于少量数据的支持,对海量数据场景的支持能力还有待提升。但随着当前大数据产业的迅速发展,支持更大规模的数据合作和联合计算需求将越加迫切,通过优化算法和协议设计、与云平台的融合应用、软硬件协同设计等方式提升计算、交互效率将是当下和未来隐私计算发展需要重要方向,效率、性能、成本等综合能力将是各类主体在隐私计算产业竞争的重要抓手。
隐私计算将加速基于数据协作的业务模式创新。一方面隐私计算能够规避数据协作过程中传统数据收集、传输、交易等过程中带来的安全风险,解决网络连接费用昂贵、传输速度缓慢、传输安全性低等问题,为业务的发展提供更多的自由空间。另一方面隐私计算通过安全机制和技术手段联通多方数据源,重新定义各数据协作方的合作方式,可以解决以往数据主体的协作困境,从而实现业务形态、应用场景、商业模式等方面的创新。
通过技术与制度配套推进的方式实现数据保护将是隐私计算发展的有效路径。隐私计算虽然从技术层面实现了隐私保护与数据协作之间的动态平衡,对桥接数据孤岛、释放数据价值具有不可替代的作用。但需要强调的是,技术固然是实现合规的关键手段,但是合理、科学的制度也是数据保护过程中必不可少的一环。对于隐私计算而言,在接受法律制度规制的同时,配合法律、政策、标准等相关制度共同实现数据保护将是其产品化和商业化的前提。