您的位置:首页>公司 >

解码百融云创Indra平台:看隐私计算如何打破数据孤岛

2021-06-28 10:45:57    来源:榕城网
当前,隐私计算融合了人工智能、密码学、区块链以及计算芯片等一系列软硬件技术,有助于实现多方数据“可用不可见”,已成为打破数据壁垒释放数据价值的关键技术解决之道。其技术特点及应用前景受到了大型金融机构、科技公司、互联网巨头、政府部门等各行业广泛关注。

作为一家致力于探索人工智能和大数据在金融领域应用的科技企业,百融云创始终注重大数据应用过程中的数据安全与隐私保护。近年来,百融云创人工智能专家从隐私集合求交集、联邦学习等技术方向入手,结合大数据具体应用场景需求,搭建起了隐私保护计算平台Indra,为金融大数据应用过程中保障数据可用性和隐私性给出了创新解法。

隐私计算关键技术

数据的分析处理全生命周期可分为数据输入、计算、结果三个环节,当下市面上的隐私计算技术体系普遍依据这一原则进行构建。大体上,隐私计算包括差分隐私、同态加密、多方安全计算、零知识证明、可信执行环境、联邦学习等技术。

联邦学习

联邦学习(Federated Learning, FL),是由两个或以上参与方共同参与,在保证各数据方的原始数据不出库的前提下,协作构建并使用机器学习模型的人工智能技术。联邦学习能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。联邦学习实际上是一个综合性的技术组合,底层融合了多种机器学习算法和隐私保护的算子,如安全多方计算的多种协议和差分隐私,都可以被用于联邦学习。

联邦学习的原理是通过构建一个计算网络,使客户可以在自己的终端通过使用本地数据对模型进行训练,并将模型的更新内容进行上传汇总,将不同终端的模型更新进行融合,以此优化预测模型,客户终端再将更新后的模型下载到本地,并不断重复这一过程。在整个过程中,终端数据始终存储在本地,来避免数据泄露的风险。

根据数据集的分布特点,联邦学习可分为横向联邦学习、纵向联邦学习与联邦迁移学习。百融云创Indra平台主要针对应用场景更丰富的纵向联邦学习,比如同一个地区的银行和电商,他们用户重叠较多;但是,由于银行记录的都是用户的收支行为与信用评级,而电商记录的是用户浏览与购买历史,因此用户特征重叠较少。

安全多方计算

安全多方计算,顾名思义, 是在保证多个参与方获得正确计算结果的同时,无法获得计算结果之外的任何信息,从而保证各方数据的安全和私密。安全多方计算技术包括秘密共享(secret sharing)、不经意传输(oblivious transfer)、混淆电路(garbled circuit)、隐私集合求交集(private set intersection), 隐私信息检索(privacy information retrieval)等关键计算协议。

安全多方计算的优势在于,各参与方对其所拥有的数据拥有绝对的控制权,保证基本数据和信息不会泄露。然而,目前安全多方计算技术包含复杂的密码学操作,计算开销较大,需要付出很大的性能代价。此外,针对特定问题和场景,还需要设计专用协议。另外,该技术的落地还受到网络带宽、延迟等因素制约。因此,提升计算效率,降低实施方案设计复杂度,与此同时拓展技术落地场景,将是未来安全多方计算在产业应用的优化和发展方向。

二.解码百融云创Indra平台

目前Indra平台包含基于OT的PSI和联邦学习两大部分。

对于PSI,Indra平台采用基于OT和基于公钥两种形式。两种PSI算法分别适用于合作方数据集和客户数据集差不多大、合作方数据集远远大于客户数据集两种情形。Indra平台的PSI算法既适用于普通的求交集计算,也适用于联邦学习的训练和预测阶段。百融云创作为管理中心可以提供多方(不仅仅是两方)数据集合求交集。

Indra平台还将与区块链技术结合起来,为合作方提供数据确权服务,实现数据价值流转。同时区块链还可以为Indra平台提供公平、透明、合理的激励分配机制,克服安全多方计算内在的缺陷,充分调动合作方提供高质量数据、诚实参与计算的积极性。

平台架构图

整个Indra平台逻辑上分为管理中心、合作方、客户三大部分。

管理中心:百融云创是Indra平台的管理中心,负责用户管理、向客户展示合作方数据集列表、PSI和联邦学习任务调用,以及结果返回。百融云创既是数据中介机构(管理中心),也是数据提供方(合作方)。即使百融云创作为管理中心,百融云创和客户也无法拿到合作方的数据,充分保护合作方数据的安全。

合作方:大量数据的拥有者,可以将数据集的描述提供给管理中心,等待客户使用其数据,从数据中获取价值。

客户:根据自身需求,选择管理中心提供的数据集列表向管理中心发起PSI或联邦学习任务请求,同时向管理中心和合作方支付费用。

image.png

平台系统流程图

image.png

1.合作方将数据的ID进行Hash后上传合作数据集(PSI数据集、联邦学习数据集)到自己的服务器,并将合作数据集的相关描述发送给Indra平台管理中心;

2.Indra平台管理中心向客户展示可用的数据集;

3.客户选择合适的数据集,发起相应的任务(PSI任务、联邦学习训练任务、联邦学习预测任务);

4.Indra平台管理中心分配、调度任务,选择合适的功能模块;

5.合作方、管理中心、客户合作完成任务:

5.1当执行PSI任务时,管理中心综合各匹配结果,合并、生成最终匹配结果,并将结果保存、记账、下发,客户可以展示、下载、解析匹配结果;

5.2.当执行联邦学习训练任务时,管理中心产生所需的公私钥和中间计算结果的解密,合作方、客户联合训练模型,最终合作方和客户各自得到模型的一部分;

5.3.当执行联邦学习预测任务时,客户选择已有的模型和对应的合作方数据集,通过改进的PSI协议,获得预测结果。

Indra平台应用场景

Indra平台为合作方、客户之间提供了一种安全、高效的数据合作模式,各方在不泄露数据的情况下仍然可以挖掘数据价值,确保数据使用的合规性。

黑名单匹配

在多头借贷名单、黑名单匹配中,客户往往会查询多家机构的数据集,以确定借款者是否在多头借贷名单或黑名单中。在这个过程中,最理想的状态是除了借贷机构用户集和黑名单共同的数据之外,其他任何信息都不会泄露。一种简单的方法是将各自数据都进行哈希运算,哈希值相同的就是共同的数据。但是这样做就会把哈希值暴露给对方,如果数据空间不是很大很容易遭到暴力求解。即使通过一些手段增加数据空间,也会造成匹配率下降等问题。

Indra平台向客户集中展示多个合作方提供的多头借贷名单和黑名单,包括历史匹配率、被匹配次数、匹配效果等信息。客户根据这些信息自由选择想要匹配的多头借贷名单或黑名单。事后客户还可以在Indra平台上反馈数据集使用情况,以便其他客户更有针对性地选择合适的数据集。

2.在线预测

在使用联邦学习训练得到最终的模型,往往各参与方只掌握模型的一部分。使用模型时,仍然需要各方联合起来进行预测。作为客户的一方并不希望其他参与方知晓预测的用户ID。比如借贷机构和征信机构合作预测某个借款人的信用,借贷机构并不想让对方知道该借款人有借款需求,否则征信机构可以将借款人的信息提供给其他借贷机构,所以借贷机构希望在预测借款人信用的同时并不会泄露借款人的信息。

在预测阶段同样可以使用Indra平台的PSI组件:参与各方计算各自模型的结果并和ID一一对应起来;客户在求得用户ID交集的同时也能获得该ID对应的各自模型的计算结果,从而可以计算出最终的预测结果。根据PSI的技术特点,在这个过程中,除了客户之外其他参与方(合作方)均不知道用户ID交集的信息,也就无法知道客户到底预测的是哪个用户ID。

此外,通过使用Indra平台的PSI组件,在不向合作方泄露用户ID的情况下,客户可以从合作方那儿获得该用户ID的其他信息,如历史借款次数、借款金额等。

3.联合建模

为了联合多方数据集训练模型,传统的方法是参与方在本地计算模型,然后将各自的模型提交给第三方,第三方根据这些模型合成一个新的模型。这样做可以保证各方数据隐私安全,但是第三方可以获得各方模型,往往模型本身也属于参与方的核心资产并不希望泄露出去。同时,虽然各参与方的模型基于各自数据集,但是最终合成的模型并不是直接使用各方数据集,所以模型的效果没有直接使用数据训练模型的效果好。另一种方法是参与方各自拿出少量的数据放到一起进行模型训练。这样做仍然会有少量的数据泄露,而且由于只是少量数据,并不能得到最优的模型。

Indra平台在联合建模方面使用联邦学习技术,模型的训练直接使用各参与方的数据集,通过PSI、Paillier加密等密码学技术,保证数据均是在密文状态下进行训练。训练完成之后,参与方除了获得最终模型外,无法得到其他参与方的任何数据信息。

4.数据中介

和传统的数据超市不同,Indra平台只展示合作方数据集的相关描述,而不会真正拥有合作方的具体数据,解决数据孤岛困境,避免非法数据交易,实现数据价值。由于Indra平台可以充分保护合作方数据安全,合作方将自有数据集的相关信息(数据本身不出库),如数据量、字段、来源、用途等发布到Indra平台。Indra平台将合作方数据集、历史使用情况等信息集中展示给客户。客户可以根据数据集相关信息和自身需求,选择合适的数据集进行匹配、建模或预测等操作。Indra平台对数据集的使用情况、效果等信息进行统计,方便后续客户选择高质量的数据集,也能激励合作方提供更优质的数据。

随着大数据的蓬勃发展,隐私保护技术的逐步透明和普及,互联互通、技术开源和标准定制,未来两年将迎来爆发式的发展,极大地赋能金融机构在科技场景的落地,能更好运用隐私保护技术的企业,无疑能够更好的利用大数据带来的价值。未来,百融云创会加大对隐私保护技术的研发和创新,始终引领金融行业的科技创新方向。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

关键词:

相关阅读