AI人工智能 | 人工智能机器人【中国人工智能网】

滚动新闻

独家|专访UCL传授汪军:中国能不能呈现像DeepMind这样的企业?|CCF-GAIR2017

时间:2017-07-17 22:28来源:网络整理 作者:AI人工智能

独家|专访UCL教授汪军:中国能不能泛起像DeepMind这样的企业?|CCF-GAIR2017

AI 科技评论按:想必各人都对前段时间火遍学术圈的 BiCNet 并不生疏,这个 UCL 与阿里巴巴相助的多智能双向协作网络,可在星际争霸中研究多智能体间的协作进修。在本年由中国计较机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的第二届CCF-GAIR全球人工智能与呆板人峰会上,我们侥幸地邀请到了伦敦大学学院(UCL)计较机系传授汪军博士做了主题演讲。

汪军传授在题为《A Society of AI Agents》的演讲中,从多智体群体的特征切入,先容了多智体的强化进修特性。详细表示为:在同一情况下,差异的智体既可以单独处理惩罚各自的任务,又可以连系在一起处理惩罚优化一个主要的方针方程,并且会按照详细的环境会有差异的变革。另外,汪军传授还以多个例子叙述了强化进修与情况的干系。

演讲全文:UCL计较机系传授汪军:如何举办大局限多智体强化进修?| CCF-GAIR 2017

汪军传授汇报 AI 科技评论,实际上他此前筹备的是《Artificial Collective Intelligence》的演讲主题,但近期因为在多智能体规模有了一些新的研究和实验,因此他在 CCF-GAIR 大会的演讲中所引用的两篇论文也是第一次在果真场所露面。其实他在演讲中想讲的对象尚有许多,因此在演讲之后, AI 科技评论与汪军传授举办了一次对话,整理如下:

今朝学界少有人在多智能体长举办深度进修要领的研究,这是因为各人今朝还只存眷单个智能体的浸染,照旧说这个议题自己就很是难?

汪军传授:其实多智能体是一个研究规模,也有自成一体的集会会议,研究的人也许多。但今朝将多智能体团结强化进修,出格是深度强化进修,今朝照旧较量新的一个话题。

首先,研究者要办理只有一个智能体的问题,好比说象棋、围棋,等这个问题办理之后,大概就会接着用深度进修去处理惩罚更多的智能体。你可以看到,这有一个自然的脉络在个中。所以本年就出格明明,有许多多智能体的问题回收了深度进修的要领去办理,包罗 UC 伯克利的一个研究室,做了一个领略语言的研究。在一个给定的场景下,研究者让多智能体们本身去通讯、去交换,但不汇报互相交换的内容,最终发明逐步地,语言就有大概在个中发生。因此这个也很是有意思。

我们团队大概是从另一个角度出发,想象这些场景在生物学上有没有什么纪律,好比有大概会呈现 Leader,那么我们可以在这个进程中领略首脑是如何发生的,是不是有些智能体本身就会成为首脑。我们此刻所领略的内容就是所谓的「grouping」,也就是在给定一些特定条件下,大概就会认为这些多智能体可以成为一个团队,这与人类最早最原始的状态其实是一样的。最早的时候人需要捕猎,出于安详的思量大概会构成一个团队。所以我们通过深度进修的方法,可以进修到以前完全进修不到的对象,甚至对人类学可以相识。

更进一步地,我们是不是可以进修宗教是如何发生的?宗教到底是什么,因为每小我私家都大概是自私的,可能每小我私家都有本身的好处,假如有一个宗教把这些人约束起来,大概这个团体的好处大概会最大化。虽然,我此刻所说的只是一个假设,此刻还没有人去研究这个,我们所做的研究也只是第一步。

您在演讲中也提到,今朝很少有人研究高出 20 个智能体的协作,但您也提到了好比说像滴滴的调治问题,尚有共享单车的问题。实际上 MSRA 的都市计较,或是滴滴研究院的调治系统都有雷同的交通系统研究,但它是属于一个系统更换所有的个别,那么将行为个别作为智能体的意义在什么处所?

汪军传授:在多智能体的环境下,你有两种配置环境,一种环境是让每小我私家之间只优化本身的好处,好处之间固然大概会有些接洽,可是每次做抉择的时候,两边不需要知道对方所做的抉择。

尚有一种是协作干系,在做抉择之前需要彼此获取一些信息,最后连系起来做一个抉择。这两个环境是纷歧样的,假如你把它放到一个最非凡的环境,就像你适才讲的,我有一个大系统,我把所有的多智能体全部一起优化,这时候呢这个多智能体其实就转化成了单智能体,你可以把它看成一个智能体,只不外它的这个输出太多了,每个都要输出一个功效。但这个计较劲太大,大概有一百万个,假如每个都要去衡量决定的话,这是不现实的。所以一般来说会选择一种完全独立的,可能中间有双向通讯的方法。

那这样是不是也涉及到一个博弈问题?

汪军传授:对,博弈有两种,一个是啊就是我们所谓的零和博弈,就像下棋一样,你赢了我就输了,它是一个相互博弈的环境。那么尚有一些协作的干系,好比我们俩的方针是一样的,那么会涉及到两边的孝敬水平。

那么您在演讲中所说的生态系统的例子,其实是但愿找到背后的一些生态学纪律?这些理论性的内容可以或许如何被应用呢?

汪军传授:其实有两个层面。第一个是,我们想从科学上面领略它背后的纪律,要满意我们的好奇心。好比说人工智能体在做出一个群体今后,是不是跟大自然的表示环境是一样的,假如纷歧样,有什么不同?假如一样,为什么?我们完全不会思量它大概会有什么(应)用,主要照旧满意我们的好奇心。

我们其时做情况动态变革研究的出发点在于,在玩游戏的时候,好比说玩王者荣耀,假如你玩游戏的程度较量弱,假如敌手设计得太强了,你玩一下就以为没意思了;假如你的程度很强,但这个游戏敌手的难度又很弱,你玩着也没有意思。因此游戏难度的设计,自己也就是优化这个游戏自己的一个进程。

但游戏照旧在一个虚拟情况下设计的,那么在实际环境和实际应用里,如何举办各类指标的量化?

汪军传授:主要有两点,一个是在有些环境下你可以本身设定,那么举办试错就可以了。假如是理论性越发的话,尚有一种叫「Inverse Reinforce Learning」的要领,就是说反过来玩,我们有一些最优化的计策作为练习集,然后把它放回强化进修系统里去进修 reward ,然后用得到的 reward 再去办理新问题。

其实我看您的近期研究内容与 GAN 的接洽很是细密,包罗 SeqGAN、IRGAN 等。你以为今朝 GAN 是一个较量有效的要领吗?照旧说,与 GAN 的团结会是将来的一个趋势?

汪军传授:我们的 SeqGAN 出来之后 ( https://arxiv.org/abs/1609.05473 ),此刻是今朝独一一个可以用在离散数据上的有效要领,所以本年你会看到有许多论文用 SeqGAN 去办理文本问题,所以我们谁人文章的引用就变得很是高。

有研究者回收的是别的一个要领,谁人要领理论很好,可是实际数据的表示还不是太好。所以我们此刻也在实验,是不是要在一些尺度的数据集上再好好地把结果提上去。

那假如引申到您很是擅长的推荐系统与计较化告白规模,您以为应该如何用深度进修团结起来?

汪军传授:好比像 GAN 的话,我以为此刻就火得有点过了,它在办理某些问题大概照旧够呛。(好比说呢?)好比说像离散数据就较量难办理,我们也只是提出了一个要领,详细结果优劣各人也都还在实验。另外,在优化的时候不必然结果很好,大概要试许多次,不像此刻的 Deep Learning。

以 IRGAN 为例,这是您与学术界举办相助的一个成就;而像 BiCNet 这样的多智能体协作系统则是与家产界相助接洽的,那么在这两个研究中,您感觉到最大的差异之处在那边?

汪军传授:公司具有很强的工程性,并且有数据,好比说有些论文假如是与家产界相助,你可以举办在线测试,包罗系统上的 A/B Testing,但在学校不行能让几个博士生去做这个工作。博士生必需在这几年内找到一个题目,直接去做科学的研究。

除了与双界相助外,我相识到您也在北京开办了一个公司,做本性化推荐的业务,那么为何不选择直接创业,学术界对您的吸引力大概在什么处所?

汪军传授:岂论是在学校照旧在财富界,各人的出发点都是想办理一些技能问题。我的乐趣照旧一直在学校,创建公司的目标也是但愿通过这样的方法实现技能转化。像计较化告白或是推荐系统,假如没有一个公司作为载体,大概我就不能拿到用户的数据,也不能做在线测试。

我以为高校对我的吸引力在于办理一些最基本的问题,在企业界大概不太容易能实现这个状态,公司也有产物化的需求。

那么像阿里与高校相助研究星际争霸,实际上是一个较量非凡的环境?因为它并不是直接以产物化为导向的?

汪军传授:是的,阿里做这个工作简直是一个较量特例的环境,而像 DeepMind 这样的环境就更少了。DeepMind 给本身的定位是纯研究机构,但实现的却是贸易化的运作。实际上我认为,母公司提供资金,让基本研究机构以贸易化模式去打点,做一些较量前沿的研究,它的回报率会更高。我一直想强调的一点是,为什么中国不能呈现像 DeepMind、Magic Pony 这样的公司?

假如是 VC 较量急功近利,那大概就做不了,第一年投钱,第二年就想把产物做出来,这对基本研究来说是不现实的。但假如把研究放回高校,高校的机制又存在着不敷,也就是「一个萝卜一个坑」。什么意思呢?一个博士生,他要在四年里独立地完成一个项目。虽然我们有些机制可以让学生们一起相助,但还长短常零星的状态。不行能在高校里找 10 个最牛的学生去把星际这个问题彻底搞定,只有在家产界中雇 10 个最牛的人去做这个工作,这个中有工程师、有措施员、有系统维护,这样才气发生一个 AlphaGo。

此刻海内许多企业也在建研究院,是不是也在想向这种偏向靠拢?

汪军传授:对,但他们的研究院都长短常功利性的,都是研究院,可是都不研究。我以为要办理这个问题大概有两种渠道,一个是大公司溘然就觉悟了,要做一个全新的贸易化运作的纯研究机构;另一个是创业公司本身带头做基本研究,假如把 AlphaGo 这样的研究做成了,我相信对 VC 的代价也很高。好比星际争霸这个工作,可能说王者荣耀,假如能做到能与一般程度可能程度稍微好点的玩家反抗,那它的代价就很是大了。

跋文:汪军传授的微信签名是「with a curious mind」,问他这是不是一个对本身的评价,他说,做学术就是这么回事,需要永远保持一颗好奇心。另外,这句签名更多地也表达了他对糊口的一种立场。汪军传授暗示,在回学校后规划继承安平悄悄踏踏实实再做几篇文章。「AI 大概本年火,那来岁大概就不火了,那么你是要转业干此外吗?必定不是,你还得继承往下走。」

独家|专访UCL教授汪军:中国能不能泛起像DeepMind这样的企业?|CCF-GAIR2017

    标签: