如何造一个像哆啦A梦一样的机器人?
2017-03-26 编辑:
【时长14'07'',建议在WiFi条件下观看视频】
本视频出自 2016万有青年大烩
机器人和电脑的区别是什么?
大家可以花一秒钟想一下。
我认为区别在于操作的能力。举个例子,Siri,是一个很聪明的电脑,它可以跟你对话,但它不能拿东西,它没有办法去没有操作任何现实世界的物品。
但一提起哆啦A梦,你会觉得它是一个机器人。
大家仔细观察哆啦A梦是怎么拿东西的?你会发现它会伸出一个小手指。
不记得是2011年还是2010年,PNAS曾发表一篇论文,由芝加哥大学、康奈尔大学几个研究组一起合作,研究出了一个现实版的哆啦A梦的手。
这边就是当时论文里面得不同的配图,有它的结构,有它的原理,有它对不同物体识别的方式,以及最后测评的一个效果。
这个东西有几种不同的实现,它的原理非常简单。下图中,最左边就是我在2011年的时候自己实现的,我当时在一个气球里面装满了大米,然后拿一个吸尘器吸,其实当时直接用嘴吸都可以达到这个效果。中间是南洋理工的一群人自己在网上做的,大家在网上可以搜到。右边那个是正式拿了发明者的授权成立了商业公司做成的产品,是一个商业级别的真正的gripper(抓手)。
机械臂如何完成一个动作路径?
Manipulation(操控)主要分成三个部分,这也是机器人做任何具体的动作,做任何具体的事情要经过的三个步骤,分别是感知、规划和操作或者是运动。这可以认为是我这5年来干的事情。
我们做了一个通用机器人,它的实现形式是一个移动的操作臂,也就是机械臂,叫做mobile manipulator。下面这个是在我们办公室里面,机械臂自己导航到仓库,看盒子里面有什么东西,去判断盒子里东西的位置、姿态是什么样子的示例。
机器人从底座的移动到机械臂的移动,到如何实现对物品的识别,到抓取,到避开,都是完全自动的,没有任何的人工帮助。这本身也是两台机器人配合的一个过程。
感知:描述周边环境
先讲第一个感知的部分。感知就是要描述你周围的世界,你周围的环境是什么样子的。这是借用现在最火的自动驾驶的图,自动驾驶其中很重要的能力就是感知。
这张图显示的是recognition的部分,它可以识别一个图片里有什么东西,大概在哪个方位。这也是传统的CV里做的最多的一点。
这张是segmentation,就是把图片做一个分割,比如把人全部染成绿色,道路全部染成紫色,识别出来标志信号是黄色的。把画面里这些不同的功能加以区别,这样一来机器人就可以进行下一步的动作。
而我们目前集中力量做的,也是做真正有操作能力的机器人需要攻克的难点,是pose estimation,也就是判断一个物品的姿态。
大家可以看到,右面图里有个白色的区域,这是系统识别零食盒的一个模板,当零食盒被转动之后,系统能够重新识别出它再画面里具体哪个位置,通过重新计算之后白色的区域又再次准确识别了零食盒的方位,更重要的是它朝着什么方向。
那么感知还有其他的方式,比如说触觉。
这是基于电子的触觉传感器的原理图。
这是基于光学的触觉传感器的一个原理图。
这个触觉传感器非常非常昂贵,大概是15000美金一支。它是基于流体内部的定位、电压区别,做的一个触觉的传感器。
在所有的这些事情里面,科学的部分和工程的部分,其实并不是泾渭分明的,但是大家可以看到哪些部分属于科学,比如说光学、比如说电的基本原理,电阻是怎么工作的,电路本身是怎么工作的,比如说在做视觉识别的时候,怎么做模式识别,怎么用神经网络判断什么东西是什么,在什么地方,这都是属于科学研究的部分,特别是像计算机里面相关的内容,都是属于我们叫做形式科学的部分。