本篇文章3622字,读完约9分钟
【本智能短信12月17日】鹏城实验室主办的新一代人工智能院士高峰论坛今天在深圳开幕。 会议上,香港人工智能机器人学会理事长、香港科技大学讲座教授杨强发表演讲,阐述了过渡学习和联邦学习的做法。
杨强教授表示,目前的数据更多,但数据分割情况严重,一些行业只有小数据。 处理这些问题有两种方法。 一个是迁移学习,另一个是联邦学习。 迁移学习是指找出不同的数据和模型之间的关系,将一个行业的模型迁移到另一个行业,从而实现相反的三个目的。
联邦迁移学习是多个组织建立联合,以确保隐私安全,不交换数据,共同建立模型。
杨强认为,未来的迁移学习和联邦学习有可能成为新的ai学习模式。 小羿
以下是杨强教授演讲的实录(用本智能整理)。
杨强:你好。 今天的主题与数据有关。 首先,让我们看看我们的理想和现实。 我们的理想是我们处于大数据的时代。 我们不断地从不同的数据源向中心数据库传播数据流。 但现实是,看到数据支离破碎,数据形成孤岛。 另外,在一些大企业内部,不同部门的数据也不能相互表达信息。 这是我们熟知的困境。 这种困境使得许多人工智能不容易应用非常好的算法。
这个数据不足的事件可以分为两个部分。 例如,让我们看看两个部门( a部门和b部门)。 这两个部门各有图像数据,一个有行动数据(用x表示)。 有时会同时显示x和y。 如果有部门壁垒,就会形成两种现象。 一个地方的数据量特别大,另一个地方的数据量特别大。 另一个是大家都很小,不能形成一个生态的效果,大家都很小,最后大家就没有数据了。
这里结合我和我的团队的研究谈两个处理方案。 第一个方案是迁移学习。 我们知道人在一个行业学到的知识可以自由应用于另一个行业。 这里有一个例子,我们学习骑自行车,然后我们把这个骑自行车的技能应用到另一个方面。 我们为什么会有这样的能力? 因为,我们可以找到不同的数据和模型的关系,人就有这个能力。 因为有这个能力。 我们也不害怕特别小的数据。 因为我们在一个行业取得了非常好的模式。 遇到小数据的地方,我们转移之前的模型就行了。 人特别会做这种事。
迁移学习是机器学习中新的课题,机器学习的领导者也提出迁移学习可能是下一个机器学习的热点。 andrew ng去年有这样的说法。 特别是他最近在推特上表现出了facebook的突破。 如果行业有足够的数据,随着数据量的增加,例如,这个数据达到几千万级到几亿级、十亿级的水平,其迁移能力就会大幅提高,到了新的行业,不需要做很多数据的工作、训练工作,就会相当熟练地训练模型
这个现象最近在nlp行业再次被证实了谷歌的系统,提示如果迁移学习成功,有可能形成新的ai的采用模式。 我们看到迁移学习的能力也逐年增加。
接下来,让我们仔细看看迁移学习的好处。 首先,小数据可以达到1比3的效果。 二是我们建立的模型特别可靠,鲁棒性特别高,一个模型即使有外部干扰也能顺利工作。 这是人工智能落地应用的重要特征之一。 所以,迁移学习根据迁移的能力,模型可以变得稳健。 第三个好处是防止隐私暴露。
当前迁移学习的首要模式是从左侧的源行业迁移到右侧的目标行业。 源行业如果说我们有好的数据训练模型,我们就会把数据、模型、任务转移到这个新行业,称为目标行业。 也就是说,我们得到了新的模型,接受了这个新模型的训练,我们就能完成新的任务。
在这里,我想举一个例子。 我们现在在湾区。 大湾区包括香港、深圳。 我在深圳开车。 司机坐在车的左侧。 我们香港司机坐在车的右侧。 但是,看到跨境司机,他掌握了移动学习的技术。 司机的位置都是离道路中心线最近的位置。 这就是必须通过移动学习算法找到的不变量。 可以在两个行业找到。
近来,深度学习发展迅速,深度学习对迁移学习也起到了很大的促进作用。 假设上面的红色模型从左到右是源行业的模型,下面的绿色部分是目标行业的模型。 在这两个行业中的迁移显示,在不同的层中进行迁移时,迁移能力不同。
有学者做过研究,从浅到深,在图像上表示迁移能力的差异,高表示迁移能力强,低表示迁移能力弱,我们对于图像来说,比较浅的东西比较具有共性,可以共享的这些知识,比较容易迁移 这个知识用一个小数据就相反了。
利用以上理论分解,我们也可以扩展不同的迁移学习算法。 例如,源行业和目标行业差距太大,我们不进一步,我们常常寻找中间的数据集,帮助这个模型一步步迁移,我们利用深度学习的变种实现了这个算法。 这个算法叫做传播性迁移学习,过河时,我们可以在中间堆石头,让我们一步一步地穿越。
传播式的迁移学习最近在斯坦福的一项事业中特别引人注目。 用视觉图像识别非洲大陆的贫困地区,帮助评分。 这个评分有助于联合国、世界银行做出救援决定,利用传播式的迁移学习,达到了和过去人们手工向这些危险地区收集数据一样的效果。
在工业上,迁移学习也有很多应用。 这是第四种范式企业的一个例子,利用大量小额贷款的数据训练的模式,转为大额融资,但通过小数据,找到了两个数据集之间的相同点,最终在营销行业成功实现了这种转移。
另一个例子是新闻流的推荐。 现在大多数人用手机看短片,用手机看新闻。 我们能否从一个信息行业转移到另一个信息行业,从看文案版的信息行业转移到看短片的行业? 可以吗? 可以做到。 这个转移正在转移什么样的模式呢? 是迁移学习的战略模式。 于是我们做了实验。 利用在手机上得到的数据,这样的转移也成功了。 其中有博弈论和强化学习带来的效果。 这个效果我就不具体说了,但效果很好。
另一个例子是,在自然语言行业,如果我们在一个行业获得了良好的舆论分解模式(什么是舆论分解? 就是客户给产品评分。 例如,在电子商务中,客户有一点消息。 然后,将这些消息翻译成赞成或反对。 的。 如果我们在一个行业做了非常好的分类器,就可以将其转移到不太相似的行业。 例如,从电影、电子产品到电影,这两者听起来不像,但我们可以在其中利用迁移学习,找出桥牌的词汇。 最后,对抗互联网。
刚谈到第一个方案,我们有一个行业有大数据,第二个行业有小数据的优点。 作为第二个方案,介绍联邦迁移学习。 如果这两个行业都有小数据怎么办? 我没有办法从一个行业转移到第二个行业。 如果我们有很多数据,有企业、公司、学校、医院,假设所有数据都不大,但大家总是在建立联盟。 这个时候,我们可以保护安全、隐私,不交换数据,让他们共同建设这个模式。 这叫做联邦迁移学习。
假设有两个数据( a侧和b侧),a侧是样本和产品的维度,一部分样本重叠,一部分产品的维度重叠,但大部分不重叠,那么我们分为两部分,重叠的样本的这一部分,或者重叠
让我们看看什么是联邦学习。 这是今年以来国际上突然变热的主题。 许多企业(包括欧洲、美国和中国)对这家突然出现的金融企业很感兴趣。 为什么呢? 其要求是所有公司的数据都不在本地出现,数据不检出,模型的效果与直接集成相同,因此我们将其称为“无损”( lossless )。 在这个过程中,我们取得了什么样的效果呢? 在学习模型的过程中,无需交换客户的数据,就可以防止侵犯隐私安全。 我们知道隐私和安全越来越重要了。 脸书最近又罚了一大笔钱。 欧洲也有一种新的隐私法,叫做gdpr。 很多人可能听说我们国家也有非常严格的数据安全保护法,制定了越来越多的法律法规。 如果可以做到这一点,就可以不交换数据而创建协作模型,从而实现法规遵从性。
这里有两种方法。 第一个方法是看a和b这两个数据集。 这些可能有些特征重叠,但大部分特征并不重叠。 此时,当我们需要制作模型时,a和b需要共享整个模型的一部分,将模型a和模型b合并,使之成为完美的模型。 为了实现这一点,有各种各样的算法。 其中非常重要的是准同态加密技术,保证在两侧传播重要参数时,该参数被加密,不会泄露给对方。
第二种方法是在客户这个维度上在联邦进行合作。 假设每个手机都是计算中心,不想直接将这个数据放入云中,可以用每个手机加密模型,让加密的模型入住。 在云中,还可以利用相同状态的加密算法来计算所有加密的模型。 但是在这个过程中云不知道自己在做什么,所以这种保护产生了这样的效果,手机终端的模型最终得到了很好的更新。 谷歌现在正在考虑利用这个算法更新安卓系统。 今后,所有人手机上的更新不需要直接输入数据。
有了这种纵向和横向的联邦学习算法,然后加入了迁移学习的效果,我们今后的社会、公司可以形成一个联盟,包括文芳阁和跨领域的联盟。 例如,有不同的数据平台,有不同的商业平台,大家可以形成一个联盟,共同建模,共同采用。 这个联盟中非常重要的是维护安全,第二点是所有公司、所有团队都觉得自己在里面受益,需要研究博弈论、研究经济学的同事进入设计奖励机制,让大家都受益。
谢谢你。 (完)
关注本智能公众号( smartman163 ),解读ai行业大企业大事,新应用新视角。
来源:安莎通讯社
标题:“机器学习新模式:杨强教授阐述迁移学习和联邦学习”
地址:http://www.a0bm.com/new/19180.html