【新智元导读】OpenAI 机器人理解力虽强,却无法进行非语言交流。最近,哥伦比亚大学华人团队打造了全新的机器人 Emo,不仅可以提前预测和模拟人类表情,还可以进行眼神交流。
此前,人形机器人 Ameca「大梦初醒」的神情,已让许多人感受到了真正的「恐惧」。
随着 ChatGPT 横空出世,得到加持的人形机器人虽擅长语言交流,但是在非语言交流,特别是面部表情,还差得很远。
未来,如果人类真的要生活在一个充满机器人的世界之中,机器人必须要有像人类一样能自主通过面部表情获取人类的信任的能力。
显然,设计一款不仅能做出各种面部表情,还能知道何时表现的机器人,一直是一项艰巨的任务。
来自哥伦比亚大学工程学院的创新机器实验室,5 年来一直致力于这一挑战。
最近,研究团队推出了一款机器人 Emo—— 能够预测人类面部表情,并与人类同时做出表情。
最新研究已发表在 Science 子刊上。
论文地址:https://www.science.org/doi/10.1126/scirobotics.adi4724
Emo 的自我监督学习框架,就像人类照镜子来练习面部表情。
有趣的是,Emo 甚至学会了在一个人微笑前 840 毫秒提前预测,并同时与人类一起微笑。
这种快速及时的表情回应,能让人类感受到机器人的真诚和被理解的感觉。
而且,它还可以做出眼神互动。
Emo 如何能够做到精准预测人类表情?
人机交互革命正来临由 Hod Lipson 带领的研究团队称,在开发机器人 Emo 之前,需要解决两大挑战。
首先是硬件方面,如何机械地设计一个涉及复杂硬件和驱动机制,且具有表现力的多功能机器人人脸。
另一方面,就是设计好的机器人脸,需要知道生成哪种表情,让其看起来自然、及时和真实。
而且更进一步,研究小组还希望训练机器人能够预测人类的面部表情,并与人同时做出这些表情。
具体来说,Emo 脸部配备了 26 个执行器,可以呈现出多种多样的微妙面部表情。
在执行器之外,Emo 的脸使用了硅胶皮设计,方便快速定制和维护。
为了进行更加逼真的互动,研究人员为机器人的眼睛配备了高分辨率摄像头。
因此 Emo 还可以做到眼神交流,这也是非语言交流中重要的一部分。
此外,研究小组还开发了两个人工智能模型:一个是通过分析目标面部的细微变化来预测人类的面部表情,另一个使用相应的面部表情生成运动指令。
为了训练机器人如何做出面部表情,研究人员将 Emo 放在相机前,让它做随机的动作。
几个小时后,机器人学会了他们的面部表情和运动指令之间的关系。
团队将其称为「自我建模」,与人类想象自己做出特定表情的样子。
然后,研究小组为 Emo 播放了人类面部表情的视频,通过逐帧观察并学习。
经过几个小时的训练后,Emo 可以通过观察人们面部的微小变化,来预测他们的面部表情。
这项研究主要作者 Yuhang Hu 表示,「我认为,准确预测人类面部表情是人机交互(HRI)的一场革命。传统上,机器人的设计并不考虑人类在交互过程中的表情」。
「现在,机器人可以整合人类的面部表情作为反馈。当机器人与人实时进行共同表达时,不仅提高了交互质量,还有助于在人类和机器人之间建立信任。未来,在与机器人互动时,它会像真人一样,观察和解读你的面部表情」。
接下来,一起看看 Emo 背后设计的具体细节。
技术介绍机械控制结构Emo 配备了 26 个执行器(下图),提供了更高的面部自由度,可以做出不对称的面部表情。
(1 和 2) 用磁铁连接的连杆控制眉毛。(3) 上眼睑。(4) 下眼睑。(5) 眼球连杆。(6) 眼球框架。(7) 相机
(8 至 10 和 13) 口形被动连杆机构。(11 和 12) 二维五杆机制(2D five-bar mechanism)的连杆。
Emo 设计的主要区别之一是使用直接连接的磁铁来使可更换的面部皮肤变形。这种方法可以更精确地控制面部表情。
此外,Emo 的眼睛内嵌摄像头,可实现仿人视觉感知。
这些高分辨率的 RGB(红、绿、蓝)摄像头,每只眼睛的瞳孔内都有一个,增强了机器人与环境互动的能力,并能更好地预测对话者的面部表情。
眼睛模块控制眼球、眉毛和眼睑的运动,如上图所示。
每个眼框都装有一个高分辨率 RGB 摄像头。眼框分别由两个电机通过平行四边形机构在俯仰和偏航两个轴上驱动。
这种设计的优点是在眼框中央创造了