AI人工智能 | 人工智能机器人【中国人工智能网】

滚动新闻

中科视拓CTO山世光:如何用X数据驱动AI生长|CCF-GAIR2017

时间:2017-07-17 23:01来源:网络整理 作者:AI人工智能

AI科技评论按:7月7日,全球人工智能和呆板人峰会(CCF-GAIR 2017)在深圳如期举行,由CCF中国计较机学会主办、雷锋网与香港中文大学(深圳)承办的这次大会共聚积了来自全球30多位AI规模科学家、近300家AI明星企业。AI科技评论最近将会连续放出峰会上的英华内容,回馈给恒久以来支持我们的读者们!

本次带来中科视拓CTO,中科院计较所研究员山世光博士在GAIR 2017大会上的分享英华。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

山世光,中科院计较所研究员、博导,基金委优青,CCF青年科学奖得到者,现任中科院智能信息处理惩罚重点尝试室常务副主任,中科视拓首创人、董事长兼CTO。他的研究规模为计较机视觉和呆板进修。已在海表里刊物和学术集会会议上颁发论文200余篇,个中CCF A类论文60余篇,论文被谷歌学术引用10000余次。曾应邀接受过ICCV,ACCV,ICPR,FG,ICASSP等国际集会会议的规模主席,现任IEEE,TIP,CVIU,PRL,Neurocomputing,FCS等国际学术刊物的编委。研究成就获2005年度国度科技进步二等奖,2015年度国度自然科学二等奖,CVPR2008 Best Student Poster Award Runner-up奖。

如何对待这次AI高潮?

谷歌AlphaGo与李世石的世纪之战,让人工智能(AI)这个话题再度火爆起来。山世光博士早在20年前就开始做AI规模中的计较机视觉技能研究,在这次GAIR大会分享中,他团结本身已往的科研经验和行业调查,别离从四个差异的角度阐明,给出了他对此次AI高潮的一些观点:

从要领论角度看:已往几十年风行的人类专家常识驱动的AI要领论被数据驱动的AI要领论全面代替。这里的数据主要指有监视的大数据。人类智能的发生是不是也完全基于有监视的大数据进修而来尚不得而知。从这个意义上讲,计较智能和人类智能之间的差别也不得而知。

从学术角度来看:固然有监视大数据驱动的要领论在某些规模已经构建出了逾越人类智能的AI,但基于有监视大数据的深度进修是否构建呆板智能时代充实且须要的基本性要领?他小我私家认为至少是不充实的,需要新的要领论。

从算法角度来看:主要得益于两个要领:一是深度进修,二是加强进修。加强进修被各人所熟知是因为AlphaGo在围棋上战胜了人类最强的棋手。但实际上加强进修在许多场景下是不能用的,至少今朝在视觉和语音处理惩罚等任务中尚未获得有效的应用。而深度进修可类比人类进修要领里的归纳进修,却不适合演绎进修。深度进修是否可以遍及应用于推理类任务尚不得而知。

从做计较机视觉的角度来讲:包罗智能视频监控、考勤门禁等在内的安防应用以及医疗读图、基于视觉的汽车帮助驾驶等都是计较机视觉技能落地的偏向,贸易化产物已经雨后春笋般涌上市场。

关于演讲主题中的X暗示什么意思,山世光博士在接下来的演讲中给出了X数据的五个寄义,别离是:第一,大数据;第二,小数据;第三,脏数据;第四,无监视数据;第五,是增广,通过增广得到更大的数据集。下面的分享实录中会有对各个寄义的具体解读。

为什么要做X数据驱动?

山世光博士将深度进修算法、强大算力、大数据比作AI革命背后的“三驾马车”,而这“三驾马车“背后的现实问题是款子投资,需要很是锋利的牛人做深度进修算法、搭建越发强大的计较力平台以及收集更多的数据。个中数据收集和标注的本钱日趋昂贵,所以他们但愿在这方面看看能不能做点什么。

关于SeetaVision视觉技能

人脸识别SeetaVision的多姿态人脸检测技能是在尺度人脸检测评测集FDDB上最好的要领之一。在100个误检的环境下,SeetaVision的检测率到达了92%。另外还研发了检测加快技能,从而可以在嵌入式设备上实现及时的多姿态人脸检测。第二小我私家脸焦点技能是面部要害特征点的定位,SeetaVision实现了81个要害特征点的超及时检测与跟踪。SeetaVison人脸识别详细应用包罗人证一致性验证,员工考勤与打卡、利害名单方针人检测等。

手势识别:SeetaVision可以实现及时的手语翻译,就像语音识别一样,把1000常用词形成的手语句子翻译成自然语言文本。基于此,视拓今朝已经和美的相助,将其应用于智能家居中。

感情计较:SeetaVision的根基心情识别率高出85%,基于普通摄像头的心率预计也很是靠近医疗设备的检测功效。

视频布局化:面向智能视频监控类应用,SeetaVision实现了嵌入式设备上的及时人车跟踪,精确度高出85%。

无人机视觉:针对无人机地面方针检测任务,SeetaVision实现了高清视频中地面车辆等方针的及时检测

分类与跟踪。

山世光博士还暗示,中科视拓的终极方针是让AI知人知面看世界,给每个AI装上伶俐的眼睛,让它看清在跟谁交互,周围情况如何,以及正在产生什么工作。而面临今朝市场上已有多家做人脸识别等视觉技能的创业公司,如何才气在竞争中脱颖而出,山世光博士暗示,将SeetaVision的贸易模式定位为“开源赋能“,走差别化竞争蹊径,重点存眷与行业客户之间的深度相助。

在大会分享的最后,山世光博士对AI将来成长需要留意哪些问题做了一些总结,他认为:

其一,鲁棒性大概是AI和视觉智能一个最致命的问题。其二,AI的生长需要多模态协同,不能单靠视觉智能或语音智能等。其三,如何基于小数据甚至是零数据精确完成种种视觉任务,还需要大量的深入研究。

以下是山世光博士在CCF-GAIR 2017的现场实录,AI科技评论做了不窜改原意的编辑:

我本日陈诉的题目是《X数据驱动的Seeta平台与技能》,大概各人都在想X是什么,这里我们临时认为X就是一个问号。在接下里的陈诉中,我会从X数据入手,来重点先容一下我们所做的事情。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

其实我们各人都很是深切的体会到,我们正在邂逅一场前所未有的人工智能技能革命和应用的井喷。在这样的一个状态下,它的背后是有“三驾马车”可能“三个引擎”,就是深度进修算法、强大算力以及大数据,这些因素的配合浸染才发生了这一轮新的AI高潮。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

我这次陈诉的题目为什么叫“X数据驱动”,主要从数据角度出发,来看对AI财富能做什么事。

这一轮人工智能的高潮,从要领论的角度来讲,主要是源自AI研究范式的变迁。即从人类专家常识驱动的要领论到数据驱动的要领论的变迁。我们指的数据,其实是特指有监视的大数据:一方面是数据量必需足够大,另一方面这些数据还必需是带有内容标签的。人类智能的本质同此刻的计较智能之间的差别,在今朝而言照旧不得而知。因此我们很是有须要从学术角度来探讨,数据驱动可能有监视的大数据驱动这样一种要领论,是否会是我们构建整个呆板智能时代的基本设施。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

虽然,在今朝这种有监视大数据驱动的要领论条件下,在某些规模确实已经呈现AI逾越人类智能的环境。这一轮AI高潮,从算法角度,主要得益于两个对象:一是深度进修、二是加强进修。加强进修被各人熟知是因为AlphaGo在围棋上战胜了人类最强的棋手。实际上加强进修并不是放之四海皆可用的要领,它在许多场景下是不能用的,出格是在视觉和语音等场景下并没有获得很是有效的应用。因为它需要AI可以或许自动的判定对错,好比说下围棋可能一个游戏,做得好可能欠好,算法是可以自动去判定好可能欠好、对可能错的。像我们的视觉、听觉这样的一些问题,好比说做人脸识别,AI算法自己识别错了,它是不可以或许知道本身识别错了的,识别对了它本身也不知道,所以很难形成一个迭代的自我加强进程。假如是硬去迭代,很大概会学偏学傻,以致走火入魔。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

所以加强进修在这些问题上并没有获得很是好的应用。深度进修今朝适合办理我称之为“好数据肥沃”的规模,并且凡是只对应于人类进修要领里的归纳进修。然而,人类的进修除了归纳进修之外,尚有演绎推理。针对演绎推理,深度进修则存在严重短板。举个演绎推理的例子,好比说《几许原本》,是欧几里德从5条正义推表演来的。想用深度进修做这类自动推演,今朝来看是完全没有但愿的。虽然,这是一个很极度的例子,但我们在日常糊口中是需要大量推理的,深度进修在这一点上,今朝来看也没有太多可以有作为的处所。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

李开复老师在已往一段时间多次提及,在将来10年大概人工智能会代替10种职业50%的事情。我不知道各人怎么去看,我小我私家以为保姆大概照旧很难代替的,也许大夫更有大概会被代替。从我们做计较机视觉的角度来讲,医疗读图是一个很重要的偏向。对付做人脸识别可能图像识此外人来说,保安则是我们更感乐趣的群体,在将来10年,也许不是50%,而是80%的保安,会被一些自动的系统所代替。好比说我们的一个企业客户,用我们的人脸识别技能做单元的门禁和考勤,在1万个员工的环境下,可以实现不需要员工卡自动做识别、开门和考勤的系统,我想大概将来真的不需要一个保安坐在那儿了。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

我和我的学生们在去年8月,基于计较地址视觉信息处进修方面的研究成就做了一个公司,叫做中科视拓,形成了一个产学研连系体,一起开拓SeetaVision技能。我们的方针是让AI能知人识面看世界,让每个AI都长上伶俐的眼睛,让它看清它在跟谁交换、相识周围正在产生什么工作,以便智能地应对这些场景。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

我们主要的底层技能,就是在呆板进修出格是深度进修理论、要领与技能。基于这些呆板进修的要领,在人脸识别、感情计较、视频布局化和无人机视觉等方面,我们有本身的一些机关。我们已往的积聚包罗在这些规模的比赛中,取得一些最好的后果,个中包罗人脸识别、手势识别、行人检测、图像搜索等等任务。我们适才也提到,业界已经有像商汤、Face++等等有许多前辈公司,比我们早走了多年。我们在贸易模式上也但愿不绝摸索新的路径。当前阶段,我们采纳”开源赋能“的差别化做法与一些重点客户开展了深度相助。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

所谓的开源,是指我们可以给B端客户提供源码级的引擎技能。更进一步的是赋能,我们可以提供生成这些引擎的引擎技能。通俗地讲,我们不单卖鸡蛋,还卖下蛋的鸡,这是完全差异的相助模式。去年8月中科视拓开源了Seetaface人脸识别引擎,它固然不是业界最好的人脸技能,但提供了一个优秀的基准,从而显著地晋升了业界基准程度,也为一些公司提供了参照。有许多客户把Seetaface代码用到产物中,并进而与我们成立了更深度的相助。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

在这里我也展示我们的一些焦点技能:

多视角人脸检测技能

在人脸检测方面实现多姿态的检测,在FDDB上是最好的要领之一。其实人脸检测各人都很是熟悉,就是我们把这个画面有几多小我私家脸找出来。FDDB也是在这个规模内里被遍及回收的尺度评测,我们在100个误检时到达了靠近93%的检测率。别的,我们还实现了许多加快的要领,实现人脸的快速检测,包罗在一些嵌入式设备上实现及时的检测。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

面部要害点定位技能

面部要害点定位技能,是指在检测到人脸的基本上,实现一面部要害点的定位。我们的技能可以定位80多个面部特征点,虽然我们也可以定位更多,但数目并不是要害。我们已实现超及时的特征点定位,在相关的数据库中我们也取得了最好的后果。基于这些技能,我们落地了一些人脸识别应用,包罗1:1的人证比对、网纹身份证照片人脸验证、以及人脸考勤系统等。与简朴人证比对对比,在公安的应用场景,身份证磨练中心会把照片加一个网纹,再传返来,而我们则需要首先把网纹去掉,再跟现场人员较量看看是不是这小我私家。今朝我们的算法是可以正确判定的。在人脸考勤方面,技能已经乐成应用,可以实现1万员工的考勤和门禁,在误识率约为1%的环境下,可以到达95%以上的正确识别率。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

感情计较与心率预计

另外我们公司还在情绪感知方面有一些积聚,可以实现85%以上的心情识别率。SeetaVision还可以实现精确的心律预计,这里的心律预计是指通过摄像头拍摄人脸部视频来预计人的心跳次数。只要摄像条件好,即可精确预计。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

手势识别与视频布局化阐明

我们尚有一些手势识此外技能,以及手语及时翻译技能。手语识别是指,用手语打一句话,把手语及时翻译成文本,我们今朝已经和美的相助,实现对一些根基手势的精确识别,用于智能家居节制。

另外在视频布局化阐明方面,我们也可以实现人车的跟踪,在TX1上做到精确度85%以上的及时检测。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

无人机视觉技能

我们尚有一个偏向是在做无人机视觉,可以或许实现地面车辆方针检测,以及地面车辆的及时跟踪。左图是地面车辆方针检测。每个绿框都是我们检测出来的车辆。我们特意选了一个堵车的场景,在方针如此小且麋集的环境下,工钱识别都是有许多坚苦的,但我们的算法可以或许实现靠近90%精度的检测。右边的视频是实现跟踪,可以或许实现对地面上车辆的及时跟踪。

下面我回到陈诉的主题上来,即X数据驱动,针对X是什么,我想讲几种差异的场景。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

第一,X=大,就是大数据驱动的视觉引擎的设计。此刻,无论大公司照旧小公司,都是在拼命的收集数据,举办深度进修模子的优化和练习。我们在人脸方面有百万级人数的亿级人脸数据,每小我私家又进一步有许多差异的场景和照片。我们在车辆和行人方面也有千万量级的图像和视频,我们对这些数据做了大量的标注,如:人的头部、躯干和四肢的标注信息。在无人机视觉方面,我们或许三四个月时间,就积聚了百万量级的无人机视觉数据,可以实现对车辆方针以及车辆范例的检测和预计。在大数据的条件下,雷同于人的熟能生巧和见闻广博,见得多你就可以积聚出来很是多的履历。

第二,X=小,在许多场景下,我们人类得到智能的本领并没有依赖于大量的数据进修,反而是一些小数据。所以在小数据的环境下,如何使得我们的算法也可以或许有结果。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

最凡是的思路是做迁移进修,所谓迁移进修最简朴的是做Finetune,我们把一个已经练习好的模子,再用小量的数据做调解和优化,使得它适应这些小数据所代表的应用场景。譬喻:我们在2015年介入感知年数预计的比赛并取得了亚军。我们回收的算法是首先在人脸识此外数据库内里,操作百万级的数据做练习,再用几万量级真实年数的数据做Finetune,最后在比赛方提供的感知年数的测试数据集上,取得了很是好的结果。

在心情识别方面,我们在2014年介入了一个比赛,因为没有大量的心情数据,因此,我们回收人脸识此外数据做练习,直接拿人脸识此外特征来做,最后也是取得第一名的后果。可见我们许多的任务,出格是相关的任务,是可以运用相关规模的数据来实现迁移的。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

别的一个例子,好比面部特征点定位,要用到在面部标注点的数据集。此刻学术界可能家产界大概会有许多差异范例的数据,好比一个数据集大概是68个点、别的一个数据集是74个点,它们之间的界说是纷歧样的,如何把它归并起来,使它变大,从而形成更好的算法,也是一个很值得存眷的偏向。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

我们的一个博士生就做了这样的一个算法,操作预测填补和深度回归的方法办理问题,其背后也是深度进修的要领以及一些适应性的调解。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

别的一个例子,手机上会有越来越多的摄像头,这些摄像头有大概是彩色的、也有大概是利害的、尚有大概是深度的,尚有大概是近红外的。这些摄像头收罗的数据,如何实现共用,这也是一个很是值得研究的话题。好比说在RGB-D数据集不敷的环境下,如何基于大量的RGB数据来完成跨模态的融合,以实现更好的功效。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

首先通过差异模态的数据别离成立深度进修的模子,之后再通过共有的网络去实现它们的融合,再反馈返来调解每个模块的深度模子,最终可以实现差异模态数据之间的跨模态的比对以及融合操作。

这种方法其实也是在操作小数据和大数据的干系,在小数据条件下更好地进修算法模子。操作这样的一种方法,我们在去年2016CVPR上宣布的模子,实现了彩色和深度信息之间的融合,以致比对。这就是第二个X=小数据。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

第三,X=脏,尚有许多环境下是脏数据。所谓的脏数据,好比在百度图片搜索“成龙”,确实会反馈许多成龙的照片,可是也会有大量的不是成龙的照片。而我们又不想雇1000小我私家大量的数据把它标注出来,爽性就基于有噪声的数据实现呆板进修。所以我们在本年提出具有“自纠错进修”本领的深度进修要领,在深度进修的进程中,一边去进修算法,一边去预计哪些样本的标签大概是错误的,我们把一些大概错误的标签批改过来,从而获得更好的算法。操作这种计策,我们发明,纵然加了40%可能60%的错误标签,我们的算法也可以或许实现不错的深度进修结果。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

X=脏,这个脏还大概有别的一层寄义,好比说有遮挡的环境。我们也提出了一个算法,在这个任务内里,我们可以或许把面部的遮挡部门、脏的部门补出来,补出来之后再去实现感知。把这两个进程迭代起来,形成连系的进修,这个事情颁发在去年的CVPR上面,也是取得了很是不错的结果。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

第四,X还大概是无监视数据。所谓的无监视数据是指没有标签可以操作的数据。想象一个场景,好比我们手内里有大量东方人的有标签数据,可是有标签的黑人数据相对较少,而我们可以在网上找到大量的无标签的黑人数据,我们如何可以或许操作这些没有标签的数据举办识别,这是一个很重要的问题。因为只用东方人的数据做练习,去识别黑人结果会很是差,反过来也是一样,所以我们要举办模子的调解,以实现从东方人数据到无监视的黑人数据的迁移。我们这方面的事情颁发在ICCV2015上面。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

第五,X还可以是增广数据,即通过对已有少量数据举办修改的方法,来生成大量数据。人类有一种本领叫做触类旁通,好比说给各人一张平面的照片,大概看到这张很帅的照片之后,你就会浮想联翩,怎么浮想呢?大概会想这小我私家从侧面看是什么样子,他笑起来是什么样子,他戴上眼镜会酿成什么样子,我们具备这种本领。我们能不能让呆板也有这样的本领,从一张照片增广出大量数据,用于进修。这里示例的是我们基于三维模子的要领做数据增广的结果,我们可以生成这位帅哥在差异视角条件下的照片。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

完成这个任务,别的一种要领是回收这两年很是火的GAN要领。输入最左侧的照片,用GAN可以生成差异心情的照片。还可以有越发巨大的,好比说带上眼镜,加上胡子等等。虽然这个也是有条件的,并不是说每张照片都可以做得这么好,基于GAN生成的人脸图像是不是可以或许用于晋升算法,今朝照旧存疑的。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

总结一下,X便是什么呢?大数据、小数据、无监视数据、脏数据、可能通过增广的方法,实现更大量数据的收集。其实尚有一个很是重要的角度,就是类比人,人在许多时候都是自寻烦恼,虽然不是自寻烦恼,是自寻数据。譬喻,在我们调查一个物体的时候,假如从一个角度不能全面调查,我们会移动来收集差异视角的数据,这种主动收集数据的本领,是现阶段AI系统进级为自主AI系统的必备本领,出格是对自主无人机和呆板人。

另外,从整个视觉智能的宏观角度来说,我们此刻已经很是清晰的看到,鲁棒性是视觉智能以致整个AI的焦点问题之一,即如何可以或许实现万无一失。其实,此刻像人脸识此外场景下,有些环境下我们已经做到万无一失,可是仍有许多实际应用的场景,譬喻智能驾驶等规模,我们需要的是百万无一失,意味着我们需要百万分之一的错误率。在这样的条件下,才气够有越发遍及的应用。在这种环境下,是不是仅有大数据就足够,这一点还存有疑问。

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

我们类比人类的发育生长进程,人类具备两个特性:一是多模态数据协同;二是基于小样本的自主进修。

多模态数据协同

人类的多模态数据协同是指什么呢?对付人来说,除了眼睛之外,我们有许多其它信息来对我们的智力发育提供辅佐,包罗语音、姿态、行动、以及背后有大量的常识库作支撑。因此,人自己是需要一个多模态系统协同事情的鲁棒AI,这带给我们一个思路,AI的生长和发育也需要多模态。

基于小样本的自主进修

对人的智能发育来说,我们生来就有“大脑”,有所谓的智商,我们从一出生的时候,神经系统根基上发育的差不多,到3岁就根基发育完毕。也就是说,人类作为一种高级生物,颠末数百万年甚至更长的时间进化出了这样的一个”先天脑“模子。假设我们拿深度进修作为一个模子来类比,相当于人在出生的时候,祖先已经帮我们操作大量数据练习出了一个深度进修模子。

在后期的生长进程中,其实是对这个深度模子基于小数据的不绝调解和适应性的优化。所以说,我们认为AI发育的很是重要的一点,就是如何基于小数据甚至是0数据完成智能的发育和后天的进修。好比说我跟各人描写一下某小我私家长成什么样子,你并没有见过这小我私家,你并没有见过这小我私家的照片,我们称为0数据,你如何可以或许识别这小我私家,是对AI的一个挑战。雷同这样的应用场景,未来会有很是多的研究空间。

综上,从人类智能的角度出发来看AI,AI要想在更多的场景下实现强大的视觉本领,还需要基于小数据以致0数据环境下的自主进修本领、以及多模态的数据协同本领,这两种本领为AI的发育提供了大概性,也为AI真正领略世界并处事人类提供了大概

我的演讲到这里,感谢各人!

中科视拓CTO山世光:如何用X数据驱动AI发展|CCF-GAIR2017

    标签: