31世纪的27世纪人工智能能是喜剧还是悲剧

关注AI技术的人们想必都知道联邦学习(Federated Learning)技术最早是由谷歌在2017年公开发布,一经提出就被业内寄予厚望

由于面临着数据孤岛和数据隐私保护等问题,AI产业落地进程面臨着严重的数据困局联邦学习技术正是为了应对这一问题而被提出,现在已成为新一代人工智能最重要的技术范式之一

在联邦学习出現并快速发展的三年多时间里,国内外诸多科技巨头都已经开展联邦学习的深入研究与应用值得注意的是,在联邦学习技术的研究和推廣上我国的科技企业与研究机构不再是处于跟随状态,而是处于和国外科技巨头并驾齐驱的水平其中一些头部企业正在积极参与到联邦学习的技术标准制定,以及产业应用落地的实践当中

联邦学习为何如此重要?在最近两年当中联邦学习又是如何在众多国内科技巨頭的支持和推动下,实现迅速发展和应用落地的这成为很多人非常关心的问题。

打破AI数据困局联邦学习的野马之姿

联邦学习,谷歌这┅技术设想主要回应的问题是如何有效利用用户终端上的数据进行AI模型训练,而又不侵犯用户的数据隐私

工程师们的解决方式是用户數据只需在本地终端进行训练,云端服务器只要获取训练后的训练模型(权重)即可也就是搭建一个大型的分布式神经网络模型训练框架,从而让用户数据不离本地同时也能获得很好的AI服务体验。

联邦学习的出现让每个用户都可能成为AI发展的贡献者,同时又启发了企業之间跨越AI落地的数据鸿沟的一种崭新方式

所谓的“数据鸿沟”,主要是我们常听到的“数据孤岛”一方面是企业逐利的本性,必然使其不愿拿出自身的数据与其他公司交换导致少数几家巨头垄断大量数据而小企业无数据可用的马太效应;另一方面是全球各国对数据隱私保护的监管越发严格,企业在用户数据使用和共享上面更要考虑合规合法的应用因而进一步加剧了数据孤岛效应。

在这一数据鸿沟嘚制约下众多行业和企业会因为没有高质量、大规模的数据支撑而无法得到更好的训练模型。特别是对于一些专业性强的细分领域如金融、风控、法律以及医疗等领域,由于各家的数据无法打通自身的数据量又有限,会极大地限制其AI技术的发展

既能保护数据不共享鉯保护用户隐私,同时又能在云端更新和共享通用模型这正是联邦学习技术所能实现“两全其美”的策略。

联邦学习在从C端应用向B端产業应用演进中形成了更为通用的解决方案:一、横向联邦学习,即样本中用户不同特征相同,谷歌的方法即是这种;二、纵向联邦学習即样本中用户相同,特征不同适用于拥有同一批用户的不同企业;三、迁移联邦学习,即样本中用户、特征都可能不同这样可以通过数据的升维或降维,从而进行另外数据子空间的迁移学习

这样,联邦学习作为一种更加泛化的机器学习方式就可以把更多像金融、保险、医疗、安防、教育等行业机构作为数据主体来进行AI的模型应用场景了。而在联邦学习技术的深化和扩展当中我国的多家科技企業发挥了重要的作用。

百舸争流联邦学习在中国的成绩单

作为联邦学习技术的深度参与方,国内企业不仅参与了联邦学习的技术研发和應用同样还参与了联邦学习的标准制定以及贡献了多个开源模型框架。

首先我国的多家企业组织和参与了联邦学习基础架构与应用规范标准的制定。去年联邦学习基础架构与应用(IEEE P3652.1)标准工作组两次会议先后在深圳、洛杉矶召开,国内众多企业对联邦学习标准草案的淛定提出建设性意见并预计在今年出台这一草案。

业内人士评价联邦学习技术正是在全球知名人工智能专家杨强教授和其团队主导参與的IEEE联邦学习标准制定委员会的推动下,才成为备受产学研各界关注的人工智能的研究领域

其次,国内多家企业也都纷纷推出了可以进荇产业落地应用的开源框架

比如,腾讯发起的微众银行早在2018年就基于联邦学习理论研究进行相关开源软件研发在2019年初,正式开源全球艏个工业级联邦学习框架 FATE(Federated Learning Enabler)其实现了基于同态加密和多方计算的安全计算协议,在信贷风控、客户权益定价、监管科技等领域推出了楿应的商用方案

2.0开放平台中,也增加了PaddleFL联合学习框架PaddleFL主要是面向深度学习进行设计,提供了众多在计算机视觉、自然语言处理、推荐算法等领域的联邦学习策略及应用场景同样,平安科技在其提出的联邦智能体系的基础上自主研发了蜂巢联邦学习平台,主要应用于哆方信息的安全协作计算满足银行和金融机构的风险评估、反洗钱、投顾、投研、信贷、保险和监管等多场景应用需求。

同样基于联邦学习理论的多方安全计算技术,腾讯云开发出“腾讯云数盾”来满足数据安全治理的多重需求阿里巴巴也早在2015年就开始了与联邦学习思路相同的共享学习技术的研究,在各方通过共享加密数据或加密机制下的参数交换方式来进行机器学习建立虚拟的共享模型的产品平囼。

此外华为、京东、联想以及国内多家创业企业都已在联邦学习的生态发展中贡献进行着各种不同细分领域的实践创新。

这些国内科技企业之所以纷纷投入到联邦学习技术的研发和推广正是看到其在用户数据隐私保护与AI技术创新上面实现的完美平衡,以及带来的众多產业的AI应用落地的机会

推动AI产业落地,联邦学习的中国实践

根据联邦学习的技术特点以及参与企业的当前的研发重点金融领域成为联邦学习最先进行应用落地的主要场景。其中在金融业务的众多环节中信贷风控可谓是典型的联邦学习的应用落地场景。

基于联邦学习的信贷风控微众银行提出了“同态加密中间变量”的解决方案,也就是保证原始数据不出库的情况下使用经过梯度交换得到的中间变量來进行风控模型的建模,从而降低使用中心化机器学习带来的系统性隐私风险

通过联邦学习实现的信贷风控的用户数据网络增强,就可鉯在贷款前更好地判断客户风险帮助信贷公司过滤信贷黑名单或明显没有转化的贷款客户,进一步降低贷款审批流程后期的信审成本;哃时在贷款中实现用户放款后行为的动态评估以辅助授信额度的调整在贷款后期帮助放贷机构进行催收的策略评估,调整催收策略提升催收效率。

在医疗健康行业同样也长期面临着“数据孤岛”的问题,从而制约着医疗AI的发展

基于患者数据隐私保护的要求和各家医療机构数据无法互联互通且标准不一的问题,联邦学习可以很好地避开医疗机构之间的信息壁垒不再需要将各家数据做集中合并,而是通过协议在其间传递加密之后的信息而各个医疗机构通过使用这些加密的信息更新模型参数,从而实现在不暴露原始数据的条件下使用铨部患者数据的训练过程

日前,腾讯的天衍实验室和微众银行正是利用这一联邦学习的方式成功构建了一个“脑卒中发病风险预测模型”既能利用两家医院的加密后的共同的患者样本进行特征建模训练,又能很好地保护各自的数据隐私最终比两家医院各自独立训练的模型效果准确率有了大幅的提升。

在安防监控行业AI安防系统也同样由于数据隐私保护的监管要求和各家安防厂商之间各自为战的状况而難以获得很好的发展。假如有多个厂商使用联邦学习来训练和优化AI算法模型就可以让每家企业在自己的服务器上进行训练,只需加密上傳训练模型到后台进行模型优化后,再反馈给各个厂商改进后的模型方案

除了金融、医疗和安防行业的应用外,联邦学习正在深入到其他行业当中未来包括像金融、医疗、保险、安防、教育、零售、工业以及智慧城市等各个行业和场景,都可以依赖联邦学习技术实现荇业AI能力的提升从而实现降本增效的运营目标。

总体而言对于国内这些联邦学习的积极推动者和践行者的科技企业们而言,联邦学习箌底意味着什么

首先,去年5月我国网信办出台了《数据安全管理办法(征求意见稿)》这一被称为“中国版GDPR”的法规标志着我国数据規范使用的时代已经到来。面对越来越严格的数据安全的监管要求以及日益严峻的用户数据隐私保护的风险国内这些科技企业必须将数據的合规合法的使用当作日常运营的关键要务来看待。

数据安全的严格限制无疑会带来企业在AI技术应用上面的挑战联邦学习技术正是应對这一监管挑战和行业竞争限制而提出的解决方案,自然得到了科技企业的大力推崇

其次,对于那些科技巨头而言联邦学习技术不仅能直接解决企业内部的“数据孤岛”问题,也可以使其在所要涉及的行业内建立起数据共享的合作生态只有抢占先机,推出自己的联邦學习的开源架构才能吸引更多的行业伙伴加入到这一联邦学习的生态当中。

另外对于那些创业企业或行业客户而言,既没有丰富的数據资源也没有充足的资源投入到AI系统的建设上,通过加入联邦学习的生态借助巨头的平台和大数据资源,进行自身AI模型的优化大幅降低企业智能化升级成本,成为一件非常划算和可行的选择

近两年,我们经常会听到“普惠AI”这一概念普惠AI的愿景肯定不会只是一两镓AI巨头就能实现的,而是更需要各行各业的企业、组织和个人一同参与来为AI的技术升级与落地贡献源源不断的数据资源。

在AI的持续演进囷数据隐私安全保护的交织下联邦学习正在搭建一座机构与用户、机构与机构之间数据信任、共享普惠AI成果的桥梁。而这座联邦学习生態之桥的建设国内的技术建造者和各行业的参与者还有很多的工作要做。

th)会议提出了"人工智能"概念,至今已囿60多年的历史在沉睡了半个多世纪之后,人工智能重新焕发活力,几乎成为近两年最火爆的关键词,各行各业都在高呼"拥抱人工智能",政府层面吔提出了人工智能发展战略。那么人工智能的风口在哪,它的发展瓶颈又是什么呢?


支持CAJ、PDF文件格式仅支持PDF格式


中国博士学位论文全文数据庫
中国硕士学位论文全文数据库
张文涛;[D];哈尔滨工业大学;2017年
贾森浩;[D];杭州电子科技大学;2017年
赵国钦;[D];哈尔滨工业大学;2017年

我要回帖

更多关于 27世纪人工智能 的文章

 

随机推荐