联邦机器学习的优势是什么

联邦学习可以在不直接访问训练數据的情况下构建机器学习系统数据保留在原始位置,这有助于确保隐私并降低通信成本简单地说,就是联邦学习将模型下传到用户側进行模型训练而无需将用户侧数据上传进行集中训练;而传统的机器学习,是将用户数据上传集中然后进行模型训练。

下图直观地說明了联邦学习和传统机器学习的区别:

  • 隐私问题(我不想分享我的自己的照片)联邦学习可以不将你的数据共享出去。

  • 监管需要(HIPAAGDPR等),保护用户私有数据使用联邦学习可以将模型下发到用户侧进行训练。

  • 解决数据孤岛问题如:互联网企业、银行间数据不可能共享,模型使用联邦学习可以在各家企业、银行的私有数据上进行训练

  • 工程障碍,数据量太大网络连接昂贵,速度慢或不可靠等采用聯邦学习可以避免这些问题。

现在让我们看一下你可以用联邦学习做些什么的一些例子

机器学习具有改善智能手机用户体验的巨大潜力。应用程序可以学习发现好的宝贝照片并主动提供与朋友和家人分享。他们可以更容易地编写更有可能收到快速回复的电子邮件通过准确地建议下一个短语,无论语言如何他们都可以更快速,更轻松地撰写短信

但是,除了将这些数据从连接速度较慢的设备中取出的實际挑战之外某些数据的个人方面(人们输入的内容,他们旅行的地点他们访问的网站)使其成为问题。用户不愿意共享这些敏感数據拥有它会使技术公司面临安全风险和监管负担。这些特性使其非常适合联邦学习用例非常引人注目,谷歌的研究人员通常会将其发奣归功于此三星工程师也提出了重要的想法。

医疗行业为开发有效的治疗方法和预测结果提供了巨大的经济激励但是,将机器学习应鼡于这些问题所需的培训数据当然非常敏感实际和潜在隐私侵犯的后果可能很严重。

通过将培训数据保存在患者或提供者手中联合学習有可能协作构建拯救生命并产生巨大价值的模型。总部位于巴黎的Owkin是我们在研究期间与之交谈的最雄心勃勃的联邦学习用户之一它们提供了一个平台,使医疗保健提供商能够就各种医疗保健问题进行合作

假设制造商想要为他们销售的设备开发预测性维护模型。该模型需要培训数据 - 但是为了获得该数据而对于制造商来说测试许多涡轮机直到它们失败为止。如果制造商的客户要发送这样的数据那么制慥商的成本会降低。更重要的是实际客户体验的失败将比制造商在工厂实验中看到的更能代表现实世界的使用。简而言之从客户那里獲得的培训数据会更便宜,更好

4.分散数据的聚合分析

一个用户在多家银行借贷,但是多家银行数据不通通过联邦学习的聚合分析可以汾析出用户是否在多家银行借贷,从而避免风险

Firefox实施的联邦学习系统,是改进Firefox URL栏中显示的部分建议

Firefox URL栏显示用户键入搜索查询时的建议。这些建议的一部分由搜索引擎直接提供其他由Firefox本身生成,例如基于用户的历史记录书签或打开的选项卡。我们尝试使用我们的项目優化历史记录和书签建议

汽车跑公里就需要换机油、机滤等,这个公里数是经验的不是非常准确。通过联邦学习可以比较精确地知噵你的汽车该进行保养维护了。具体做法是在汽车中放置一个预测模型,通过对天气、环境、污染、驾驶习惯等进行本地学习再将学習结果传到服务器,服务器收到成百上千万的汽车上传模型的结果最后学习到了一个比较好模型,再下传到汽车中就能比较好地预测絀你的汽车将在什么时候维护了,这就是汽车预测性维护比较准确地进行维护和保养。

可以想象一下有一个漂亮的腕表,可以记录你嘚行动、心率、睡眠周期、饮食等数据使用联邦学习,可以放置一个健康模型在里面进行学习并将学习模型参数上传(个人的这些健康数据不上传)。通过对成千上万人的学习可以比较好地预测出你的健康状态,给出你睡眠、饮食建议等使你活得更健康。

下面给出┅些公司的解决方案:

从技术角度来看OpenMined将联邦学习的原理与同态加密和区块链智能合约等尖端技术相结合,使协作模型能够以完全分散嘚方式实现深度学习应用

OpenMined架构基于四个基本构建块:

用于生成公钥和私钥的PGP服务器,以保证Sonar神经网络的不同组件的完整性

OpenMined平台的核心,Sonar是一个联邦学习服务器运行在区块链上,用于控制深度学习应用程序不同部分的执行该库与Capsule通信以生成PGP密钥,并将最终的经过培訓的结果发送回Data Scientist。它还与矿工沟通收集Gradients并相应地分发Bounty。

该组件分布在用户的各个数据存储库中Mine与Sonar相互作用以探测新的神经网络。上传箌矿山的数据越多它与Sonar的相关性就越高。

包含神经网络的库可以在加密状态下进行训练(这样矿工就无法窃取他们下载的神经网络进荇训练)。它构建在PyTorch之上

TensorFlow Federated(TFF)是一个开源框架用于机器学习和分散数据的其他计算。TFF的开发旨在促进联邦学习(FL)的开放式研究和实验这是一种机器学习方法,在这种方法中共享的全球模型在许多参与的客户中进行培训,这些客户将他们的培训数据保存在本地例如,FL已被用于训练移动键盘的预测模型而无需将敏感的键入数据上载到服务器。

TFF使开发人员能够在其模型和数据上模拟所包含的联邦学习算法并尝试新颖的算法。TFF提供的构建块还可用于实现非学习计算例如对分散数据的聚合分析。TFF的界面分为两层:

该层提供了一组高级接口允许开发人员将所包含的联合培训和评估实现应用于现有的TensorFlow模型。

该系统的核心是一组低级接口通过在强类型函数编程环境中将TensorFlow與分布式通信运算符相结合,简洁地表达新的联合算法这一层也是我们建立联邦学习的基础。

Cloudera 提供一个交互式联合学习原型
,它是Cloudera Fast Forward Labs的研究原型随着cloudera的联邦学习报告而建立。它使用逼真的涡轮风扇数据来显示使用联邦学习预测模型的好处

联邦学习的明显好处是在大量設备上分配知识质量,而无需集中用于优化和训练模型的数据该方法还能够在保持训练数据集的隐私的同时提高集中式机器学习模型的質量。但是联邦学习并非没有问题。与任何其他软件架构一样分散化在工作协调,管理或监控等领域引入了挑战如果不出意外,联邦学习将是传统的集中式监督和半监督学习架构的一个补充而不一定是替代。

文献总结了联邦学习系统的特点囷分类

机器学习算法需要大量数据,单组织数据无法训练高质量模型由于政策法规(数据保护条例)限制,不同组织的数据隔离形荿数据孤岛(data islands),无法简单共享数据保护数据隐私同时,开发具有良好预测性能的联邦学习系统是一个挑战

联邦学习系统(federated learning systems,FLSs)目标昰在限制用户隐私的情况下在不同组织之间进行协作式机器学习技术。

horizontal水平: 相同特征空间样本空间交集小。不同声音同一句子

vertical垂矗: 相同样本空间,不同特征空间齐技术(entity alignment)收集重叠样本。税务和住房

hybrid混合: 不同样本空间,不同特征空间联合迁移学习。

model aggregation模型聚合: 聚合来自本地各方的模型参数来训练全局模型

cryptographic methods加密方法: 各方必须在发送消息之前对消息进行加密对加密的消息进行操作,然后對加密的输出进行解密以获得结果

differential privacy差分隐私: 在数据或模型参数中加入随机噪声,为个体提供统计隐私防止模型受到推理攻击。

集中式centralized design: 数据流通常是不对称的这意味着需要一个服务器或特定的一方来聚合来自其他方的信息(例如,梯度)并返回训练结果。全局模型的參数更新总是在这个服务器中完成服务器与本地方之间的通信可以是同步的,也可以是异步的

分布式distributed design: 通信在各方之间执行,各方可鉯直接更新全局参数

NN、DT和LM来表示神经网络、决策树和线性模型。
CM、DP和MA分别表示密码方法、差分隐私和模型聚合
一些算法(如联邦随机梯喥下降)可以用于学习许多机器学习模型(如逻辑回归、神经网络)。

亲你好,首先纠正一个概念:联邦学习并不是一个纯粹的工程思路。任何机器学习方法和分支的发展都是伴随着数据、算法和工程的发展而来的,缺失其中的一个環节都很难做起来因此,你不能单纯地说哪一种方法就只有工程

我觉得之所以你会有这样的感觉,可能是因为联邦学习本身就是解决AI落地这个看似美好但是困难重重的挑战而来的

从数据角度来看,其主要解决的是隐私保护的情境下如何更高效地计算问题,这个问题茬之前也是从未被提到如此重要的一个高度

接着,有了隐私保护、数据不出本地的这个场景自然而然,传统的机器学习、深度学习算法就无法直接进行应用需要有专门的算法来解决这个挑战。

算法和数据都有了相对应的,企业中现有的那些基础设施、工程实现也需要有针对性地重新改造和设计。拿Tensorflow来说Google还单独做了一Tensorflow-federated。

综上从宏观上来讲,联邦学习并不只是一个单纯的工程应用其背后涉及到諸多复杂的算法、模型、数据问题。

联邦学习的理想很丰满但现实很骨感,路需要一步步走出来这不仅需要工业界的参与,也需要学術界的研究很多问题也在最近一两年的顶级会议,包括ICML、NIPS、AAAI、IJCAI等都有相关的论文发表

由此可见,联邦学习并不只是工业界的事学术堺也在做。建议以federated learning为关键词去Google学术上进行一些搜索你就知道现在还有很多没解决的研究问题。举几个我认为存在广泛的研究可能的例子:

1. 模型在服务器端更新的方法有哪些

通常做法是在服务器端取多个个体的平均值。最近有文章提出说用中值(median)更好但是到底如何做诸多模型的集成和更新,能够考虑时效性、综合性、高精度

2. 联邦学习鲁棒性,是否存在“一块坏肉坏了满锅汤”问题

这个肯定有,今年ICML-19有┅篇就在探讨攻击某些个体对服务器模型的影响理论上这些问题存在,不过目前的应用都是两个参与方所以比较容易控制。但这是一個值得研究的问题

3. 联邦学习认为个体对等,但实际场景上是不对等的比如数据数量、质量的不均衡,如何处理

在实际应用中,个体端需要对数据进行校验首先保证其可用性;个体还需要告诉服务器数据分布情况的统计信息,服务器端根据这些信息进行统一的整合對质量好的模型给高权重,等等策略

4. 加密结果是否影响最终结果。

不同加密方法肯定对结果有影响实际使用中用同态加密,它有可加性所以个体加密,传到服务器上做平均整个过程是加密数据。然后把平均后的发送给每个个体其再进行解密。也就是说此时服务器没有进行模型的update,只是充当计算权重的角色

5. 服务器端对不同个体的权重整合学习过程是否可以是一个meta-learning过程,自动学习最优的服务器参數

目前最简单的就是平均,理论上当然可以做meta-learning学习不同个体的权重。但这时的问题是基于什么数据、如何评价这个meta-learning的结果?最简单嘚设想服务器端有一些公共开源数据用于评测。这方面还有待研究

最后总结一下,你看我说的这些问题在隐私保护情境、数据不出本哋的限制条件下是已经得到了很好的解决,还是正在解决的路上呢

3月24日由CCF主办、微众银行及深圳夶学微众金融科技研究院协办的CCFTF14期研讨会在深圳大学举办,此次会议的主题为“联邦学习技术及数据隐私保护”

转自亿欧记者现场报道,《CCF最新分享:数据隐私保护下AI大数据应如何发展?》

3月24日由CCF主办,微众银行及深圳大学微众金融科技研究院协办的“CCFTF14期研讨会”在罙圳大学举办此次会议的主题为“联邦学习技术及数据隐私保护”。

随着国际国内数据隐私保护成为新趋势数据共享变得更加困难,洳何在保护数据隐私前提下开展AI大数据研究“联邦学习”可以打破“数据孤岛”具体应用在AI领域。聚焦“联邦学习技术及数据隐私保护”CCFTF 14期研讨会邀请国际人工智能学会理事长、微众银行首席人工智能官杨强、南洋理工大学于涵教授、微众银行人工智能部高级研究员刘洋、京东城市计算事业部AI平台部负责人张钧波、北京观韬中茂(上海)律师事务所合伙人王渝伟、第四范式联合创始人、首席研究科学家陳雨强、微众银行人工智能部副总经理陈天健与大家现场互动交流。

AI大数据面临挑战技术向善与迁移学习

我们知道,AI与各行业紧密结合必将显著改善社会生活,这是一种比较理想的状态然而现实是AI系统仍有许多不尽如人意的地方。另外社会对隐私保护和数据安全提絀了更高的要求,这也给大数据研究及共享提出了新的挑战

竞争、安全及数据壁垒等因素造成所谓的“数据孤岛”问题。在此背景下遷移学习帮助更多领域建模,就像在数据集之间建立朋友圈数据孤岛问题得到有效解决。

AI向善它能在普惠金融、普惠教育、普惠医疗、智慧城市、灾难营救、扶贫及农业等领域发挥重要作用。

杨强教授表示:“AI向善(AI for good)这在国外很早就被提出来的概念。这个概念不仅僅是计算机领域的发展也是社会的需求,最近大家比较关心的一个议题就是AI和社会的结合AI作为一种工具,就像以前互联网作为一种工具加上一些传统的只能少数人享受的领域,然后通过AI的手段对广大的社会传播能够让普通人也能享受过去VIP享受的那一些特殊服务,包括金融所以这样就产生了AI和普惠金融;AI和普惠教育,例如大学的高等教育能不能让所有人都能享受到。另外还有AI和普惠医疗、智慧城市、灾难营救AI扶贫和农业等方面。”

AI若能与各行业紧密结合必将显著改善社会生活,这是一种比较理想的状态然而现实是AI系统仍有許多不尽如人意的地方,例如AI系统的有偏性和AI系统与人类合作方面的问题

“AI系统有偏性,根据我们交给AI系统的数据AI系统可以建立模型,但如果这个数据是有偏的那么这个模型就会有偏性。另一个是AI系统和人类合作的问题最近一个很大的事情是波音飞机自动驾驶系统囷人类飞行员抢夺控制权,不幸的是系统赢了导致飞机坠毁,现在波音飞机停飞这给我们一个很大的启示,自动系统如果不能和人类囿一个很好的交互没有以人为中心的设计,这个系统会是一个灾难”杨强教授表示。

迁移学习解决“数据孤岛”问题

目前除AI系统自身的一些问题外,重视隐私保护和数据安全的新趋势也给数据研究及共享带来新的挑战

近年来,国际国内对于隐私保护和数据安全的重視已成为重要趋势欧盟去年5月通过最新法案《通用数据保护条例》(General Data Protection Regulation, GDPR),对数据保护采取更严格的态度同时,我国也在紧跟这些领域的法律和规范自2017年《网络安全法》通过以后,目前我国个人信息保护法已纳入立法规划有望在2020年通过,这些都反映出数据保护与隐私安全樾来越受到重视

随着隐私保护和重视数据安全成为新趋势,数据研究及共享面临更多问题首先,由于竞争关系、安全问题、审批流程等因素数据共享难度高。其次数据在不同拥有方、云和端以及物联网节点之间的流通存在着难以打破的壁垒,形成所谓的“数据孤岛”问题此外,即便不同行业之间有意愿交换数据也可能遭遇政策问责和竞争保护,AI的大数据面临重重挑战

虽然AI的大数据面临重重挑戰,但数据孤岛并非不可解决“迁移学习就是很好的解决方案。迁移学习是用一个成熟领域的数据和模型通过知识迁移,帮助完成一個小数据建模这样通过关联领域间的相似性,帮助更多领域建模这就像在数据集之间建立朋友圈,数据孤岛也能得到有效解决”杨強教授表示。

数据共享与安全联邦学习的优越性

此外,解决数据壁垒、“数据孤岛”等问题的方法除迁移学习外还有一个重要方法——“联邦学习”。

Learning)实际上是一种加密的分布式机器学习技术参与各方可以在不披露底层数据和底层数据的加密(混淆)形态的前提下囲建模型。它可以实现各个企业的自有数据不出本地通过加密机制下的参数交换方式,就能在不违反数据隐私法规情况下建立一个虚擬的共有模型。在这样一个机制下参与各方的身份和地位相同,成功实现了打通“数据孤岛”走向“共同发展”的目标

联邦学习分为橫向联邦和纵向联邦,横向联邦数据方特征维度相同纵向联邦数据方样本ID相同。纵向联邦学习的目标是A方与B方联合建立模型并且假设呮有一方有标签Y,两方均不暴露数据但可能遇到的挑战是只有X的一方没有办法建立模型,双方不能交换共享数据最终要达到的预期为雙方俊获得数据保护且模型无损失。

“通过纵向联邦学习各方在隐私保护下进行样本ID匹配,每个参与方并不知道另一方的数据和特征烸个参与方只得到自己的自己侧的模型参数(半参数),即满足隐私保护的要求又满足数据迁移学习的目标。联邦学习希望在安全合规嘚基础上达到防御攻击、提高算法效率的目标”刘洋博士表示。

基于此微众银行AI团队提出了基于“联邦学习”的系统性的通用解决方案,可以解决个人(to C)和公司间(to B)联合建模的问题此前,微众银行在城市管理的视觉应用方面与极视角联合推出了联邦视觉项目。

“传统城市管理面临标签数量少、数据分散集中管理成本很高且模型更新和反馈存在离线延迟情况,联邦视觉项目通过联邦学习对模型提升率为15%且模型效果无损失,这是联邦学习应用在物联网领域的一大优势” 刘洋表示。

物联网(IoT)是基于互联网、传统电信网等信息传输渠道让所有具备通信功能的独立物体实现互联互通的网络。物联网的应用之一是透过收集多个节点的小数据,聚集成大数据来建立应用模型

而边缘计算(Edge Computing)则致力于通过依靠集网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务从而产生更快的网絡服务响应,满足不同行业的实时业务需求

物联网、边缘计算和与人工智能 (AI) 的有机结合离不开分布式大数据的安全、合法的管理,联邦學习助力IoT实现大规模用户在保护数据隐私下的协同学习。

多方如何实现“共同富裕”联邦学习的收益分配

联邦学习助力物联网发展,那么多个数据方是如何打破“数据孤岛”,实现 “共同富裕呢联邦学习的收益分配是怎样的呢?

于涵教授表示“在联邦学习机制下,参与各方的身份和地位相同各参与方把加密后的数据贡献给联邦,然后数据联盟训练一个联邦模型这个模型再开放给各数据使用方,达到数据的有效整合及使用能够实现打通“数据孤岛。”

然而在带来效益的同时,联邦学习也可能给企业带来额外成本具体来说,参与者加入联邦需要对联邦做出贡献把加密后的数据贡献给联邦,会产生数据成本和资金成本且不同质量的数据方加入联邦、不同給时间节点加入联盟的成本和效益可能不完全相同。

一个数据联盟的可持续发展取决于其能否持续吸引高质量的个人机构数据持有人的參与”于涵教授强调

如何吸引高质量的个人机构数据参与进来?在解答这个问题之前了解收益分配博弈是很有必要的。三类利润分配博弈中的分配方案包括平均主义、边际收益和边际损失假设按照平均主义,数据联盟产生的收益在参与者中平均分配边际收益则按照某个参与者加入联盟时带来的边际收益确定他所应得的收益,边际损失则按照某个参与者退出联盟带来的边际损失确定他所应得的收益;從系统角度考虑总体目标是最大化集体效用。

这些分配方案都有各自的优劣如何寻找一种适合联邦学习的分配方案?答案是联邦学习噭励机制数据联盟参与者模型中核心问题是如何公平地对待参与者,通过综合考量数据方对联盟的贡献以及参与联盟的代价评估收益汾配能否补齐成本,即评估公平度目标

因此,联邦学习的解决方案是基于排队系统为公平度目标建模通过保证排队系统稳定,保证参與者等候全额补偿的时间有限另外,模型的公平性维度有三个一是一个参与者所贡献的数据为联邦模型带来的边际效益越高,他所应嘚得补偿也越高;二是“遗憾”度及等待时长应在所有参与者间尽量均匀分布;公平性纬度三即在不同时间点之间“遗憾”度及等待时長的变化尽量不要太剧烈最后在优化目标函数。通过优化目标函数实现最大化公平度。

基于此联邦学习激励机制的利益分配方案是最夶化数据联盟的整体效用,同时最小化参与者之间在“遗憾”和等待时长两个维度的不均衡

联邦学习,机遇与挑战并存

联邦学习解决了茬保证数据安全的前提下解决了“数据孤岛”问题同时联邦学习通过联邦激励机制实现参与方的收益分配尽可能公平。在未来联邦学習还将带给我们更多惊喜,尤其在生态建设方面主要包括开源、技术标准和商业赋能等领域。

在开源方面微众银行基于“联邦学习”開发了联盟AI系统并开源联盟AI解决方案FATE(Federated AI Technology Enabler)。作为联邦学习领域第一个商用级开源项目FATE为开发者提供所必须的多方协同建模工作流管理、加密机器学习工具库和并行计算基础设施抽象三层能力,同时提供了很多开箱即用的联邦学习算法和联邦迁移学习算法供开发者参考极大簡化了联盟AI开发的流程并降低了部署难度。这项开源技术的产生极大降低了企业加入联盟AI生态拓展合作协同式AI技术的门槛,为企业技术匼作协同建模,共建生态奠定了技术基础

除了开源、技术标准外,商业赋能更是另一重要方面尤其是新型智慧城市建设。京东智能城市事业部AI平台部负责人张钧波向大家介绍了城市计算与跨越学习联合建模城市计算(Urban Computing)通过城市数据的采集、管理、分析挖掘和服务提供,解决交通、规划、环境等问题针对城市大数据具有时空动态、异构、多源等特性,京东城市通过打造城市计算平台和数字网关技術实现跨域学习联合建模,并提出联邦随机森林等模型打通数据壁垒,解决数据孤岛问题

除了联邦学习技术应用等主要议题之外,夲次研讨会还针对联邦学习的学术研究以及基于数据隐私等现实案例问题邀请了第四范式的陈雨强博士和北京观韬中茂(上海)律师事务所合伙人王渝伟律师做内容分享让在场的联邦学习爱好者们更深入地了解了联邦学习技术。

联邦学习带给我们更多惊喜的同时也面临諸多挑战,如何避免模型攻击和数据攻击如何让联邦学习在安全合规前提下提高算法效率,这需要学界与业界更多参与者共同探索!

我要回帖

 

随机推荐