金融数据共享标准(聚焦开放金融生态下的数据价值释放)
数字经济时代,数据已成为关键的生产要素,它通过跨领域、跨行业的流通释放其要素价值。在金融业,要建立更加开放的金融生态,需要将金融服务与外部生态不断融合。这个过程中,仅仅立足于自身数据是远远不够的,需要最大化发挥跨领域、跨行业数据要素价值,并满足数据应用的安全合规要求。隐私计算的快速发展,为构建更加开放的金融生态提供了新思路。
政策法规与行业需求双轮驱动隐私计算获关注
政策法规为隐私计算发展提供了机遇。当前,各金融机构正积极应用先进技术提升业务数字化水平,但技术带来的风险也随之提升,数据监管也越来越严格。国家层面,《中华人民共和国网络安全法》于2017年发布,《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》于2021年发布。2021年12月,中国人民银行发布《金融科技发展规划(2022-2025)》,明确提出从强化数据能力建设、推动数据有序共享、深化数据综合应用、做好数据安全保护方面充分释放数据要素潜能。
各项法规政策对信息安全、隐私保护给出了重要的指引,也对新技术在各个场景中的应用提出新的挑战,处理不好数据价值挖掘和数据安全保护之间的平衡关系,将阻碍数字化的进程,也会给企业、甚至社会和国家带来负面影响。因此,使用技术手段解决安全的数据流通问题,与法规政策要求高度契合,获得了良好的发展机遇。
“密态数据流通”需求推动隐私计算迅速发展。当前,我国数字经济发展迅速,数据流通成为其中必不可少的关键环节。传统数据流通方式通常直接进行明文数据的流通,随着数据的不断传播,数据安全风险也不断提高,数据流通环节中任何一个机构出现数据泄露,都会威胁数据安全。因此,在对数据安全要求较高的金融场景下,密态数据流通无疑是更好的选择,能够更好地控制数据的使用和流通范围,并保障数据安全。
以隐私计算为代表的密态数据流通技术的蓬勃发展,使得密态数据流通成为重要的数据流通形式。
当前隐私计算刚刚兴起,未来的数据规模、技术复杂度、应用场景都将远远大于现在。可以预见,隐私计算将成为构建开放金融生态的重要底层技术。
隐私计算发展态势聚焦技术和产业
已形成三大技术方向。隐私计算是涉及密码学、智能科学、硬件技术的交叉融合技术,当前主流的隐私计算技术有三大方向:一是多方安全计算为代表的基于加密算法的发展方向;二是人工智能与隐私保护融合的联邦学习技术;三是基于可信硬件的可信执行环境技术。三大方向虽有不同,但不同技术在实践中常组合使用,在不同应用场景下强化数据安全和隐私保护。
多方安全计算(Secure Multi-party Computation,MPC)由图灵奖获得者姚期智院士在1982年提出,实现在无可信第三方的情况下,多个参与方共同进行一项计算,而每一方只能获取自己的计算结果,也无法通过计算过程推测出其他任意一方输入的数据。也就是说,多方安全计算可在各方不泄露各自输入数据的前提下,多方协同进行数据分析、处理。在金融场景下,可应用于联合统计、联合查询、联合建模、联合预测等。
联邦学习(Federated Learning,FL)是实现在各方机器学习原始数据不出库的情况下,通过对数据的加密流通与处理来完成多方机器学习模型训练。联邦学习是在人工智能开发过程中,为了保障用户隐私和数据安全而提出,因此广泛应用于智能化金融服务场景中。
可信执行环境(Trusted Execution Environment,TEE)是通过在中央处理器中构建一个安全的区域,保证区域内的程序和数据的机密性和完整性。TEE是安全隔离的执行环境,为受信任应用的运行提供了比普通操作系统更高级别的安全保障。
另外,零知识证明、同态加密、差分隐私、区块链等技术也常与三大技术方向结合,协同完成隐私保护的最终目标。三大技术方向的优劣势比较如下:
表1 各项技术优劣势比较
产业正蓬勃发展,未来发展空间巨大。从产业发展历程来看,国外企业研究应用隐私计算较早。微软在2011年开始深入研究多方安全计算、谷歌首次提出了联邦学习的概念、Intel打造的SGX已成为很多可信执行环境实现方案的底座。跟国外相比,我国隐私计算产业发展较晚,2016年左右开始出现隐私计算商用项目,但我国产业化发展的速度较快,从2018年开始进入快速发展期,产学研各方投入研究和发布的产品大增,许多大数据、人工智能、区块链、金融科技企业纷纷入局。但总体来看,当前隐私计算市场环境还未成熟,产业生态还有很大的发展空间。
从技术选型上来说,由于多方安全计算的技术复杂、开发难度大,因此布局这类技术路线的多为技术型企业,建设以多方安全计算为底座的数据流通基础设施。对于联邦学习,由于当前人工智能产业蓬勃发展,并伴随相关数据安全需求递增,且联邦学习有较多成熟的开源社区,开发难度相对较低,因此众多企业投入研发基于联邦学习的隐私计算产品。对于可信执行环境,由于对硬件的依赖及国外芯片的限制,国内相关产品相对较少,但已有一些企业在国产化硬件上进行了研发投入。
从商业模式上看,隐私计算技术供应商的收入主要可以分为两类。一是提供技术相关的产品或解决方案,通过软件产品或解决方案销售获得收入,同时可提供部署、运维服务。在面向不同行业或用户需求时,也可提供定制化开发服务。二是建设运营隐私计算平台,通过平台上的数据流通服务获得利润,此时技术提供方与平台运营方将共享收益,而拥有大量数据资源的技术厂商将具备更强的竞争优势。
我国隐私计算产业仍处于商业化的前期,但根据毕马威KPMG《隐私计算行业研究报告》预测,未来市场规模将快速发展,三年后技术服务营收将达到100-200亿人民币,甚至将撬动千亿级的数据平台运营收入空间。
隐私计算两大典型金融应用场景
金融机构在业务运营中积累了大量高质量、高价值数据,但这类数据仅与金融业务本身相关,而一些金融服务如授信、营销,通常需要更全面的客户画像。因此,金融机构有着与同业机构以及其他行业机构进行联合计算的需求。隐私计算技术的应用既挖掘了数据的潜在价值,又为数据风险控制提供了强有力的支撑。在金融领域,最典型的隐私计算应用场景有两个:
一是联合风控。通过融合多个机构数据,解决单个金融机构数据量有限的问题,提升风控模型精准度。也可综合其他行业数据,在各方原始数据不出库的前提下建立风控模型,形成多维度的数据分析,提升风控质量。在信息核验时,实现多方黑名单数据的共享,对骗贷、诈骗等行为的黑名单用户进行匿踪查询,提升信息查询的安全可信程度。
二是联合营销。金融机构利用政务、通信运营商、互联网平台等外部数据,在不输出原始数据的基础上,实现更精准的用户客群分类,制定更精准的营销策略。例如,银行结合电商、政务等其他合作方提供的消费、出行等数据,更精准识别目标客户,拓展理财或信贷业务。
针对金融场景隐私计算需求,各金融机构及金融科技企业已研发应用了较多隐私计算平台产品。FATE平台是微众银行研发的开源联邦学习平台,该平台对机器学习、深度学习、迁移学习提供了安全计算支持。平台已帮助众多机构完成数据安全使用和联合建模。平安集团研发了蜂巢联邦智能隐私计算平台,平台包含数据生态、联邦计算、联邦建模、推理应用等功能,已应用于跨机构数据合作、金融风控、交叉营销等场景,并已达成了跨异构平台互联互通建模案例。百度研发了点石联邦学习平台,提供从数据分析、模型训练、评估到预测的全流程服务,产品采用优化的可信计算引擎,相比传统的计算效率更高。当前,市场主流的平台产品都已具备较完备的隐私计算功能,且都在某些方面具备独特优势。
随着马上消费覆盖全国的线上消费金融业务的快速发展,利用隐私计算技术构建符合普惠金融的智能风控体系,已成为发展的必经之路。当前消费金融公司风控业务的痛点主要有两方面:一是随着业务的不断丰富,面临数据维度缺乏、数据量不足的问题。客户留存的数据逐渐不能满足风控需求;二是当借助外部数据优化风控模型时,由于数据安全保护要求,机构之间的数据融合壁垒较高,数据交互难度很大。
针对两方面痛点,马上消费研发多方安全计算平台,融合多方数据开展联合分析,实现风控模型性能的优化提升。马上消费在具体实践中探索联合工商、税务、社保、互联网平台等多维度数据,优化提升风控模型效果。平台在多方不共享数据的前提下确认共有的交集用户,对共有样本的原始数据进行特征加工,在满足隐私保护的前提下融合多方特征,构建逻辑回归算法和XGBoost算法,最终优化评分卡模型。应用模式见图1。相比单独建模,构建的风控模型预测指标提升了5%~10%,可更准确识别风险,提升普惠金融服务能力。
马上消费多方安全计算平台基于开源软件框架打造,技术相对自主、可控,且根据金融行业标准进行研发,有利于平台互联互通,形成标准化的功能应用。平台采用分布式架构,实现技术能力与应用服务的解耦,支持自定义算法,能够更好地满足多元业务场景的需求。平台将逐步应用于马上消费与众多合作方开展安全合规的数据合作,为当前亿级注册用户提供安全可靠的信贷服务。
面临的四大关键挑战
目前隐私计算虽已成功解决一些金融场景下的数据合规问题,但其在安全、性能、互联互通等方面仍存在巨大挑战,可能限制进一步的推广和应用。
安全有待于进一步提升。隐私计算涉及的算法多样,但其安全基础通常都会设定一些假设,以此为基础进行安全算法的设计。比如,假设多方计算的各参与方都严格遵守协议流程、假设各参与方之间不产生共谋、假设硬件提供商完全可信等。但实际情况下,这些假设并不一定成立。同时,隐私计算技术在产品化过程中,不可避免会产生系统安全风险,由于隐私计算产品的安全要求较高,系统安全薄弱环节将成为最易被攻击部分。
隐私计算需要更大的计算和通信负载。大规模应用隐私计算面临着计算和网络负载的限制。例如,通过隐私计算联合建模的耗时是传统机器学习的数十倍甚至数百倍。并且,隐私计算意味着多方同步计算,某一方计算或通信资源的瓶颈将直接限制整个计算平台的性能。
各方安全共识难以形成。隐私计算实际是让多个参与方在安全共识下开展多方计算。但是,参与者很难直观验证各方的安全性,当前也缺少隐私计算安全分级标准,使得实际应用场景下各方安全共识通常难以达成。
不同产品间很难互联互通。每一个隐私计算应用方都面临着与不同机构多方计算的问题,但各方部署的隐私计算平台可能基于特定的算法和设计实现,平台间很难完成信息的交互,导致重复建设和成本的浪费。因此互联互通也成为隐私计算正面对的巨大挑战。
隐私计算在未来大有可为
隐私计算在近几年取得了长足的进步,但要实现更大规模的应用落地,需要在多方面进一步提升。
通过软硬件优化加速提升隐私计算可用性。隐私计算底层的密码学技术虽带来了安全性,但计算效率被大大降低。因此,为满足未来的规模化落地,隐私计算平台需进行大量优化,针对数据处理各个环节,将性能提升到最优,并研究高性能硬件,以满足隐私计算的实时性要求。
隐私计算与多种技术互相融合。隐私计算与区块链、同态加密、差分隐私等技术将逐步融合,发挥技术的最大价值,并拓展应用场景边界。例如,区块链与隐私计算的结合,可实现全闭环的安全和隐私服务。
隐私计算行业生态的融合发展。当前虽已有成功的隐私计算案例,但多数仍处于摸索实验阶段,还未形成规模化效应。产学研用各界需加强隐私计算相关研究、开发、应用的布局。越来越多的开源项目也将加速隐私计算技术迭代,降低开发门槛和成本。隐私计算未来将形成多元、开放的产业生态。
隐私计算在金融领域正迎来蓬勃发展的新机遇。可以预见,隐私计算将成为金融行业数字化转型的关键一环,助力构建更加开放的金融生态,促进我国金融行业高质量发展。
本文源自金融界资讯
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com