Reload Original PagePrint PageEmail Page

《Nature》杂志探访谷歌人工智能公司DeepMind:人工智能目前发展到了什么地步? | 趣火星

DeepMind,这家现在属于Google的人工智能公司,向我们展示了他们如何创造出一种单机算法,能够让计算机学会49种不同的电子游戏,其中包括70年代的经典游戏Pong(Pong是雅达利在1972年11月29日推出的一款投币式街机游戏,也被认为是电子游戏历史上第一个街机电子游戏——译者注)和Space Invaders(Space Invaders为日本太东公司于1978年发行之一款经典街机游戏——译者注)。在超过半数的游戏中,计算机熟练到可以击败一个专业的人类玩家。

1

字幕为机器之心内容团队听译添加,只是选择性翻译来帮助大家理解,目前还无法做到专业字幕组的水准,请大家见谅。注:不看视频的童鞋可在文章末尾查看文字版采访内容。

这是第一个在给出相同且极少量的初始信息后,就能够重新开始学会不同任务的人工智能算法,在2013年发布预备版本时引起过轰动 (V. Mnih et al. Preprint at http://arxiv.org/abs/1312.5602; 2013)。

弗吉尼亚州詹姆斯麦迪逊大学的一位机器学习科学家Nathan Sprague说:「你拥有一个可以学会多个游戏的系统,不需要从一个游戏切换到另一个游戏进行调整,这个事实令人惊讶且给人留下了深刻印象。」

总部设在伦敦的DeepMind公司认为,受大脑启发的系统也能洞察人类智慧。其联合创始人Demis Hassabis说道:「神经科学家正在研究智慧和做出决策的关系,这里是培育这些想法的温床。」日前,Hassabis和他的同事发表了一篇描述这个游戏算法的论文(V. Mnih et al. Nature 518, 529–533; 2015. See also News & Views on page 486)。

游戏之于人工智能研究者就像果蝇之于生物学一样,它们都是一个简化后的用以测试理论的系统。来自加拿大埃德蒙顿阿尔伯塔大学的Richard Sutton是一位研究增强学习的计算机科学家,他这样说道,「理解大脑是一个非常困难的问题,但游戏允许你将大脑分解成几部分进行研究」。但直到今天,大多数击败了人类的计算机——比如IBM的深蓝(1997年曾经击败过世界象棋冠军加里·卡帕斯洛夫),和最近公布的在德州扑克中有着完美表现的算法(参见 Nature http://doi.org/2dw; 2015)——都只擅长一种游戏。

DeepMind算法之所以「多才多艺」,来因为它源于两种机器学习方法的结合, Sutton将其称为「伟大创想」的成就。第一种是深度学习,受人脑启发的一种结构,在实验的基础上,该结构中模拟神经元层间的联结得到加强。深度学习系统能够从大量的非结构数据中获取复杂信息(see Nature505, 146–148; 2014)。Google正在使用这种算法来自动分类图片,目的则是为了进行机器翻译。

第二种算法是增强学习(reinforcement learning),这种决策系统的灵感源自动物大脑中的神经递质多巴胺奖励系统( neuro­transmitter dopamine reward system)。该算法仅使用屏幕像素和游戏得分作为输入,为了在给定时间里,获取最大奖励,算法不断通过试错(比如该如何行动?左转、右转还是开火)进行学习。在每种游戏上花费数小时后,系统掌握了一系列经典街机游戏的操作方式,包括赛车、拳击和Space Invaders。

Sutton表示,Google这样的公司可以从不断改进的人工智能技术中直接获得商业利益,Google已经将这些技术放在如何精准投放在线广告、推送新闻等。同时,Sprague指出,该技术使得机器人有能力通过与外界环境交互来解决问题。

DeepMind联合创始人Hassabis则认为,科学本身依然是人工智能研究的主要驱动力,因为建造更加智能的系统需要对人类智力有着更加深入的理解。许多计算神经科学家也对此表示赞同。Sprague,这位创造了自己版本的DeepMind算法的人,解释说,在神经元连接的解剖学层面上,人工智能与神经科学在很大程度上不相关,然而,它可以为我们洞悉更高层次的计算原理带来灵感。

自2013年起,爱沙尼亚Tartu大学计算机科学家Ilya Kuzovkin就一直从事DeepMind代码的逆向工程研究,他说:「我们这套训练系统的技巧并非从生物现状出发,但对两者的比较会激发大家对大脑的新认知。」Kuzovkin认为,DeepMind小组选择边研究边发布代码的科研方式,推动了这一领域的发展,因为这样,该实验室和其他实验室就能以此为基础展开进一步研究。 他补充到,「这也表明企业赞助的科研已步入正轨:(因为)他们在与学术界共享成果。」

根据英国卫报的报道,2014年Google花费了4亿英镑(约合6亿美元)收购DeepMind,搜索巨人一下子从学术领域猎取到大量顶尖计算机科学家和神经科学家,截至目前,DeepMind公司的相关研究人员已从80人增至140人。(这里引用了卫报的数据,关于Google收购DeepMind的具体金额貌似有出入,有说4亿美金也有说是4亿英镑——译者注)。

和以前一样,接下来的研究项目仍受神经科学的影响。其中一个项目是能够将记忆植入算法,让系统将其学习能力运用到新的任务中。和人类不同的是,现有的系统掌握某个游戏后,并不会在另外一个游戏中表现得更好。

另一大挑战在于如何模仿大脑把问题分解成小任务的方式。目前,DeepMind系统很难将当下行为与较远的行为效果联系起来,这会导致系统的局限性,比如在应对Ms. Pac-Man(吃豆人游戏,游戏中,玩家将扮演幽灵,不断吃掉迷宫当中的所有豆子,还要避开那些漂浮的鬼魂——译者注)这样的迷宫类游戏时往往无从下手。

附:文字版采访内容

旁白:人们对DeepMind所知不多,浏览他们的网站,你会看到他们的目标是solve intelligence,还有近期招聘信息。不过,我们确实知道2014年, 这家成立于2011年公司被谷歌高价收购。最近,该小组在《Nature》上发表了一篇很赞的论文,我们也有机会拜访这家公司。这扇门后聚集着这个星球上最聪明的大脑。Demis Hassabis,是这家公司共同创始人之一,象棋奇才、游戏设计大拿、神经科学家,对人工智能充满热情。

记者:我们现在已经有Siri和图片识别工具,这些对手已经很聪明了,你们的研究如何推进了现有技术?

Hassabis: 就拿你刚才举得的这些例子来说,我们现有的这些智能工具使用范围有限 ,并不足以应对下一个十年我们所要面临的巨大挑战:处理大数据,深挖数据意义,探寻数据结构、其中隐藏的洞见。我们在这里所做的就是希望能胜任这些挑战。

记者:《Nature》论文中,有关这方面的内容是从Space Invaders游戏切入的。

Hassabis: 是的。这篇文章是迈向辉煌目标的第一步,婴儿蹒跚的一步。文章里谈到的系统是第一个全面系统(a full system)的实例,它能够真实学习、掌握一系列不同任务。

记者:一步步解释下这个算法吧。

Hassabis: 系统初遇游戏,就像BB第一眼看到这个世界,得到的信息仅止于屏幕像素、游戏得分以及被要求得分最大化。 系统并不清楚自己玩的是啥游戏、也不知道怎么控制游戏,一开始,只能任意按键,看看能做些什么,数小时甚至许多天的摸爬滚打后,系统逐渐摸索出何为控制、如何处理,必要时还会建立起有关环境运作方式的模型,系统通过学习表现越来越好,最后掌握游戏。

记者:你创造的系统不仅能玩Space Invaders这一种游戏,而是掌握了多种游戏,这种挑战的必要性何在?

Hassabis:创造一个系统的难点在于如何完成一系列不同任务。唯一解决之道,就是让机器和算法自己直接从数据中学习。

旁白:为了更好理解DeepMind系统运作,大神给记者引荐了两位关键的系统设计人员,Volodymyr Mnih 和 Koray Kavukcuoglu.

镜头一的男人:Minh(机器之心的忠实读者应该对他不陌生吧?他就是Hinton在多伦多大学的学生)

镜头二的男人: Kavukcouglu(笑得真腼腆,他是Facebook人工智能负责人Yann LeCun的学生,从事对象特征提取的无监督学习与目标识别多级架构研究)

记者:如果身处算法之中,我们会看到些什么?

Minh: 系统是个大的神经网络 ,基于输入,逐层提取对象特征。系统最底层看到的是像素信息;较高层处理有关诸如球的位置之类的信息。 机器输出的内容基于这样一种预测:如果我现在按这个键,会得多少分,然后继续游戏。

记者:谈谈系统面临的挑战吧。

Minh:目前系统的问题面临的挑战之一是,它们目前是通过任意按键来进行学习的。像Space Invaders这样的游戏,任意按几次键后,搞定少数几个敌人就能得分。但是,有些游戏,第一次得分、获得回报获很不容易, 像迷宫类游戏,任意按键并不能立刻得分,这样系统就没办法开始学习。

记者:这就是系统搞不定吃豆人游戏的原因吧

Minh:这是原因之一,游戏里有迷宫,需要满屏幕探索,这里涉及计划的难题。

记者:为什么系统实现长期计划很难?

Kavukcouglu: 当前系统没有记忆这部分(component),没办法记住距离较为久远的过去,因此没办法以此为基础筹划未来。

记者:有没有什么机器能将记忆分给或借给系统?

Kavukcouglu:噢,并不是那样。即使系统能够记忆,关键问题在于机器使用记忆的能力,比如决定将什么放入记忆、从记忆中读取什么,这是一块全新的研究领域,我们正在从事这方面的研究。

旁白:虽然机器从游戏中学习让人印象深刻,不过还远谈不上「智能」(intelligence)。 Space Invaders迈出了不同寻常的第一步。DeepMind是家与众不同的公司。

记者:将研究秘密发表在刊物上,意义何在?

Hassabis: 我们觉得与社会分享很重要,让外界见证我们的科研质量也很重要。

记者:为什么嫁给谷歌?

H:两家公司文化很相似。不过,主要原因还是这样有助于加速研究步伐,谷歌有丰富资源,比如数据、计算机,我们有算法,合作很明智。如果展望未来十年或更远,我们会很激动,现在发布的技术以及未来的技术进步累积起来,最终我们就能在人工智能的帮助下——无论是AI scientists还是AI-assisted scientists,取得科学进步,借助机器学习这架直升机,我们真的会取得科研上的新突破。

✄—————————————————-

本文来源Nature官网,作者Elizabeth Gibney,由机器之心独家翻译出品,参与成员、小琦、何雷、微胖、柒柒、桑夏。本文授权趣火星(www.7huoxing.com)发布,转载请注明出处。

添加个人微信号”jiqizhixin2014″:

申请加入机器之心翻译合伙人计划。

国内外前沿科技公司和产品寻求报道。

通过朋友圈查看历史文章。