“清华人工智能论坛”—芮勇博士《人工智能趋势之四化》

导读:2016年6月6日,清华人工智能论坛在清华园成功举办,清华大学副校长薛其坤院士与张钹院士、马少平、张长水教授等来自清华大学人工智能领域的多位权威专家、芮勇、王小川、张连毅等杰出清华校友企业代表,和学术界、产业界、资本界等社会各界近500多人相聚清华园,纵论人工智能。本届论坛充分展现出了清华大学在人工智能领域强大、领先的学术、产业实力,与客观务实、创新进取的风貌,引发了人工智能界的广泛关注与轰动。
        本文内容选自微软亚洲研究院常务副院长芮勇博士于本届论坛上所做的题为《人工智能趋势之四化》的演讲。他认为未来人工智能的发展趋势是大数据化、自适应化、可穿戴化和增强化,演讲全文如下:
       我为什么取这个题目呢?什么叫人工智能趋势之四化。因为到这个时候大家都很困惑,起一个稍微应景的题目。今年是“人工智能”这个词被造出来的第61年,61年前没有,这个词最开始出现是在1956年。
       四化,第一个是人工智能的大数据化,这么多人类产生各种数据,让它训练机器,使得机器有更多的智能。第二个希望人工智能能够自适应化。第三个,越来越多可穿戴化,我们戴手表也好,甚至穿的衣服上每一根线。第四个就是人和人工智能的关系到底是什么?我个人觉得人工智能是一个很强的工具,为人类增强服务,还谈不到跟我们人类相对抗,那还很遥远。接下来我会给大家一一介绍这“四化”,因为我来自微软,所以我对微软的项目比较熟,我就用微软的几个项目给大家作一个简单的介绍。
       第一个是人工智能的大数据化。首先为大家介绍一下微软认知服务,它是把微软过去20几年做的人工智能分支的好的技术,包括计算机视觉、语音、语言、知识和搜索的一些好的技术放在认知服务上去,这样有什么好处呢?可能另外一家公司,或者在座的一些朋友,你想开发一个APP的时候,不用再重新开发,直接调用就成了。现在是五个大类,包括大概二十几个小类。
      到底什么是微软认知服务,为了给大家一个感性的概念,我给大家展示下幻灯片,这是去年(大概一年多以前)How-Old.net,这是个很好玩的一个游戏,但是这款游戏你要知道首先人脸在什么地方,其次它的性别是男是女,还有其次,他看上去今天多大了,不是年龄的估计,是颜龄的估计。因为有了这么一些很好的API,人工智能的API,在此基础上进行程序调用,这个就写出来了。这是一个很好的例子,站在API的基础上写出更好的APP。也有很多人上传了很多图片,包括靠你们左边的,这是奥巴马一家的图片,当然这里面最高兴的肯定是奥巴马的太太,因为看上去只有三十几岁,虽然她的岁数可能比这个大一点,但是颜龄比较低,比较年轻。靠右边的其实是四十年前微软刚成立的时候的一张图片,今天微软全球有11万多名员工,但是刚成立的时候就是11个员工,连秘书加在一起,11个员工。靠左下角长得比较英俊的小伙子就是比尔·盖茨,看着就像23岁,其实他也就是23岁。微软大家知道,其实是有两个,一个是比尔·盖茨,靠左下角,另外一个是保罗·艾伦,他的颜龄看上去有50多岁。除了人脸我们知道他的性别、颜龄。其实我们也很想知道,我们人类也是一样,你看上去今天喜怒哀乐怎么样?你是高兴还是愤怒?还是有点困了?其实在去年年底的时候我们发布了第二个版本,就是可以把人类的一些情感也能估计出来,调用几个API你就知道这个小孩是有一些吃惊。我们其实一直是有这么一个愿景,希望让计算机能够看到外面的世界。
      在2011年以前,深度学习没有被引入计算机视觉之前,其实我们可以看到错误率大概在百分之二十几,这是全球排第一的,一直到2012年的时候,深度学习被第一次引入计算机视觉,这个时候错误率大幅下降,到了百分之十几,之后的几年降到了10%以内,比如像2014年前后。有一个斯坦福的博士生觉得,深度学习把错误率降低了不少,我如果是一个人来参加这么一个分类的比赛,我的错误率会是多少?大家不要小看一千类的物体分类,其实不简单,为什么不简单?我如果告诉大家这一千类物体里面有120种狗,你就知道这有多难了。我自己可能只认识四五种狗,吉娃娃等等,要把这120种都区分对不是容易的事。这名斯坦福的学生把自己关在一个屋子里训练,他做了一个比赛,他的错误率达到5.1%,这就非常非常不简单,我相信在座的各位,我们加在一起也达不到5.1%的错误率。直到去年年底的时候,我们做了一个很深的深度人工神经元网络,到152层,我们把错误率降到3.57%,这已经超过了很多人的水平。 
       2012年的时候,深度学习刚引入计算机视觉是八层,有人说是九层,其实有一层是隐含层,其实是八层。到2014年的时候,到了19。具体算法不聊太多,但是有一些思路上的东西,不是说从上一层直接连到下一层,而是跳过去。隔几层以后再往下走,有一点像人的神经元的连接一样,规定是每一层单个连下去,有的时候会往前跳一下。因为这个新的结构就使得去年我们在2015年ImageNet三个主要项目都拿到冠军,而且要比第二名高出很多,这是新算法带来的好处。除了我们让计算机能够看到一个图片是属于某一类的,比这个更难一点的是说,比如说他知道这个图片里面有一只猫,更难的是说你知不知道那个猫在什么地方?不仅仅告诉你这里面有一只猫,我告诉你这只猫在图片的左上角。所以物体检测是比物体分类更难的事情。我想给大家看一下下面这个,比物体检测再难一点的就是像素级别的物体分割,因为我们知道一个图片有很多像素级别,每个像素是属于这只猫,还是属于这只猫边上的草,每一个都要分类,这是更难的事情,从图片分类到物体检测,到像素级的物体分割,今天已经可以做到这样的程度。 
       刚才说了那么多,为什么计算机视觉能够做分类、做物体检测、做像素级的物体分割?是因为我们人类生成了很多的数据,这些数据被拿来训练计算机,它才能够有一定的智能,所以这是第一类叫做大数据化。第二类,其实我们很想让人工智能有一定的自适应性,比如说我给大家举两个例子,在座的可能有一半的人会经常自拍,一些年轻的女士们经常会自拍,拍的时候你下意识地要想一想,现在的光线是不是足够亮?后面是不是有很亮的玻璃,比如在那儿拍,如果有很亮的玻璃,玻璃是看到了,但我的脸是黑的,每次自拍要操心一些事情。我们可不可以用人工智能的方法,写出来一个有智能的API,让人工智能的APP,让这个APP去操心这些事情,不要让用户去操心这些事情。我们就做了一个微软自拍,我们没有投入任何的钱,一分钱都没有投入,一个月下载量到了一百万,完全是口口相传,大家要感兴趣的话,待会儿也可以去搜一下。它能做很多的东西,不仅仅是智能降噪、自然美颜等等。其实他知道你的年龄和性别,比如你是一位年轻的女士的话,它会给你美颜美得很好,甚至把你的嘴唇再修红一点。但是如果是我拍的话,它知道我已经很老了,没有必要把我弄得那么漂亮,弄得漂亮我反而会不高兴,所以我拍下来的是我本身的样子。所有这些很智能的东西都已经在这个APP里面,因为他知道外面的光线是什么样、外面的噪声是什么样、这个用户是男是女、是什么样的年龄。 
       大家可以去AppStore下载试试看,我自我感觉好像比市面上的要好一些,让你操心的东西少一些。 
       第二个,我想给大家举一个例子是自适应的人工智能。有一个很有意思的APP,我们叫做实时翻译器。这是怎么来的呢?1966年的时候,在美国有一个连续的电影,叫《星际迷航》,我相信在座的可能也有不少朋友都看过这部电影。有很多《星际迷航》的影迷,每次电影出来,就把电影票买到了,在电影院前等着看。《星际迷航》是讲不同的星迷去不同的星球探索。不用去另外一个星球,我们就在地球上去另外一个国家,其实你遇到的问题就是你语言可能不通,你怎么跟那个国家的人进行交流?当时在电影里面有一个,这边这两个人手里抓着一个东西,任何语言它都可以进行实时翻译,不管你和来自另外一个星球的人讲什么语言,它都可以进行翻译。当然,这是一个科幻,但是我们这些做研发的人总是想把科幻变成现实。所以七八年以前我们就有一个项目,说有没有办法我们能够做出一个系统,使得两个说不同语言的人可以实时交互?这个是七八年以前开始做,大概在四五年以前(2010年)的时候就有了这么一个系统,在我们内部进行了展示,2012年的时候,在二十一世纪的时候,我记得是在天津大礼堂,Rick Rashid这位老先生不会说中文,只会说英文,他当时是在天津大礼堂讲,讲着讲着突然听众们发现他怎么会说中文了?因为就是实时的翻译出现了,以他的方式用中文跟观众进行交互。2015年的时候我们把这项技术加到Skype里,今天这个技术已经在skype上。如果想做到这件事情,我下边会讲具体的技术怎么做,在我讲具体的技术之前,网上有一段小视频,这是一个美国的摄影师在中国待了十来年,是一个背包客,走了三万五千英里的路,经常拍图片、视频。所以去每个地方都没法跟当地人交流,有了这个以后,他的生活变得更加简单一点。
       很好的一个系统,但是如果为了做到这一点,必须有四个技术要做得非常非常好。哪四个技术呢?比如说小川只会说法语,他看起来像一个法国人,我只会说中文,我怎么跟小川进行交流呢?第一步,我的中文的音频系统要被实时翻译成中文的文字,并且要非常非常准。第二步,因为我跟他是日常的对话,不是在读课文,我会一会儿嗯、啊等等,有的字会重复两遍,或者说错几个字,第二个,要把说嗯、啊这些地方做翻译,第三步被翻译之后,很不错的中文的文字已经出来了,要实时把它翻译成法文的文字,这个大家知道也很不容易。你去很多中餐馆或者是一些中文和英文的翻译,就看出来很多很多的笑话。第三步也是很难。第四步,我现在不是已经有法文的文字出来了吗?小川只能看见,听不见,必须以我的发音的方式说出来这个法文,他能听见,这四个缺一不可,并且这四个,你若是每一个只做到90%的正确率,系统是没法用的,0.9×0.9×0.9×0.9,你算一下,很小了。时间关系我就不具体展开深度学习怎么做这件事情,但是我想请大家听一段简短的音频,我特意选了这段音频,因为这段音频是一个中文和英文都有的,放在一起的。这个女士只会说英文,但是你们听听她说中文是不是也像她在说话。
       其实她不会说中文,但是你合成出来她说中文就跟她说英文是一样的,你知道这是同一个人在说话,就像我一会儿说英文,一会儿说中文,你觉得是我一个人在说话,其实可以做到这种水平,让他说不同的语言是同一个人说出来的。这是我想说的第二个,叫做自适应化。
       第三个是人工智能的可穿戴化,我也想给大家举两个例子。刚才长水展示几张图片,其实你现在给计算机看几张图片,它会生成一些自然语言的文字,刚才我和小川在下面讨论,他们也做了类似的系统。但是我们想一想,如果真的有一天我们的自然语言技术,我们的计算机视觉技术可以做到这么好,让计算机看到这幅图片以后,它会说一名男子正腾空而起,表演滑板。
      除了刚才这个可穿戴设备以外,最近一个大家看到的微软的设备就是Hololens,在网上有很多视频,大家可以看,我请大家看这个视频,这还不是一个产品,这还是在研究院内部做的一个技术原形,挺有意思的,比如张老师在他的办公室,他很忙,说不定没有时间四个小时都坐在我们这个会议室,我们有没有办法把张老师放在这个座位上?
       四个柱子上都是有摄像头的。他女儿在另外一个房间。两个不同物理空间的人可以在同一个空间进行交互。这是第三个,我叫它可穿戴化。
       第四个,我叫它人和人工智能的关系。我特别同意张老师下午的演讲,其实今天这个人工智能和人不是谁PK谁的问题。很形象、很发散的、很神来一笔的、很抽象的、很艺术的在这边,计算机比我们强的是它的存储功能很强、记忆能力很强。所以它是一个很好的左边半个大脑的补充,我们人类更强的东西,我们有意识、我们有想象力,我们有很多计算机不能理解的东西。其实今后的10年、20年不是人对抗机器的问题,而是人加上机器,使得我们人更厉害。
本次论坛由清华校友人工智能联盟、清华灵云人工智能研究中心、北京捷通华声科技股份有限公司等承办。
 
       谢谢大家!
      
       灵云平台更多信息:
www.hcicloud.com
       体验灵云客服机器人:010-82826886-8898
获得 Adobe Flash Player