无需相机也能检测表情!田纳西大学研发首款单耳生物传感器

无需相机也能检测表情!田纳西大学研发首款单耳生物传感器

近日田纳西大学研究发现 “通过面部和眼部微小运动,即可操控周边电子设备;无需摄像头,戴着VR头盔就能实时捕捉面部表情、追踪面部动态及眼部动态;即便佩戴着口罩,也能让别人看到你的嘴部活动。”这是由美国田纳西大学刘健教授团队、联合德州大学阿灵顿分校VP Nguyen教授团队联合研发的耳戴式设备BioFace-3D。

日前该团队设计出一款全新耳戴式设备,可持续收集用户生物信息,并可对其面部活动进行3D准确还原。据其介绍,这是第一款基于生物信号、并能准确、持续、无侵入式地进行面部追踪和还原的耳戴式设备。

相关论文以《BioFace-3D:通过轻型单耳生物传感器连续进行三维面部重建》(BioFace-3D:Continuous 3D FacialReconstruction Through Lightweight Single-ear Biosensors)为题,发表在计算机网络及移动计算领域国际顶级会议ACM MobiCom2021上,美国田纳西大学刘健教授课题组MoSIS Lab博士生武艺担任第一作者。

他认为,基于摄像头的传统面部追踪系统存在许多限制,进而会带来诸多不便:“摄像头是获取面部信息时最直观的使用方法。但是,必须保证光照充足,脸部也要时刻对准镜头,并且镜头必须没有遮挡。

此外,摄像头的高功耗和隐私安全也亟待解决,这导致摄像头在某些场景很难投入使用,比如漆黑环境中、人物戴着口罩时、以及体验VR游戏需要进行大量身体活动时。”

基于此,该团队设计出首款可摆脱这些限制、并能持续进行面部追踪还原的耳戴式设备。耳机中包含一个接地电极插槽,并与环绕在脑后的头带集成。针对不同的头型,他们设计了大中小三种尺寸的原型。

头带中还包含一个电路盒,用来储存各种硬件。耳戴式设备的所有组件均由PLA(聚乳酸)的3D打印技术制造而成,因此机身重量较轻。BioFace-3D主要基于德州仪器ADS1299芯片的生物放大器电路、OpenBCI公司的Cyton Board、以及粘在用户皮肤上的氯化银电极表面电极,上面还集成了蓝牙模块。

其原理是,当脸部做活动时,肌肉会进行收缩从而产生微弱的电信号,在医学上这叫肌电图(EMG)。该耳戴式设备上的生物传感器,在捕捉到这些电信号并经过放大器放大后,可通过蓝牙将信号发给计算机。接着,计算机上的深度学习算法即可开始工作,持续不断地将未经处理的生物信号、以每秒20帧的速度转换为53个表现面部特征的特征点。

不同面部动作,会牵扯到不同肌肉组织,从而产生不同的肌电图。而深度学习算法可精确捕捉到这些差别,借此还原出使用者的面部表情。在经过卡尔曼滤波的处理后,这些面部特征点经由一个事先训练好的头部模型,即可转化为3D的虚拟形象。

研究中,该团队召集16名志愿者,来参与测试该耳戴式设备。实验结果表明,在平均1.85毫米的绝对误差下,该设备可准确还原53个表现用户表情的面部特征点,这可与大多数最先进的基于摄像机的解决方案相媲美。

当用户戴上口罩,该系统仍能以1.93毫米的绝对误差对面部做以准确还原。在实验结束后,武艺还让志愿者填写体验问卷,结果显示有13名参与者对该设备持积极态度并愿意使用它。此外,该系统的功耗为118毫瓦,在一块锂电池的作用下可连续8小时采集并发送生物信号。

通过生物信号,可生成53个特征点的坐标

回忆研究流程,其表示第一步是获取高信噪比的生物信号,来保证用户面部信息可被有效捕捉到。同时为提高用户体验,不仅要保证生物传感器的数量尽可能地少,还要保证这些传感器可被设置在非敏感面部区域。

无需相机也能检测表情!田纳西大学研发首款单耳生物传感器

测试之后,该团队将5个生物传感器设置在佩戴者耳部附近,该区域可在不牺牲信噪比的同时提高使用体验。基于这五个生物传感器的位置,他们完成了耳戴式设备的设计和3D打印工作。

下一步是通过构建算法,来从未处理的生物信号中,准确地还原面部特征点。这时就得用到深度学习,它能通过算法找出不同信号之间的联系,从而达成人类无法做到的事情。

要想把模型训练成功,首先要收集大量生物信号、以及与之对应的面部特征点的真值。在采集生物信号的同时,武艺等人使用摄像头记录下用户面部活动,进而通过预先训练好的高精度视觉神经网络,来从视觉信号中获取面部特征点的真值。

经过反复测试,该系统最终选择了基于含有98个面部特征点的WFLW数据集训练的视觉模型,并从98个特征点中选择53个代表性特征点,包含眉毛、眼睛、鼻子和嘴巴,并可展现出8种不同的面部表情,如无表情、高兴和生气等。这些提取出来的特征点坐标,将用来训练以生物信号为输入的神经网络。

在测试阶段,该系统不仅无需使用摄像头,而且仅凭生物信号即可生成53个特征点的坐标,即可达成和基于摄像头的方法相媲美的效果。

由于持续收集的生物信号,从本质上来说就是时间序列,为此该团队设计了基于一维卷积的神经网络,以此来将生物信号以每秒20帧的速度转换为53个特征点。武艺表示,从未处理的时间序列信号中,一维卷积神经网络可快速提取代表性特征,并进行高效准确的面部还原。

在一块英伟达2080Ti显卡的运作下,神经网络能以0.033毫秒一帧的速度,迅速生成面部特征点。为保证生成的3D脸部动画的稳定性,该系统对生成的面部特征点序列,进行了卡尔曼滤波,以提升3D动画的最终视觉效果,即视觉观感更顺滑。经过滤波后的特征点,会经过预先训练好的模型生成对应的虚拟形象。

可用于阿兹海默症的早期预警等

该设备可摆脱必须在用户面前放一台摄像头的限制,涉及的系统也能和诸多新兴技术进行有效结合。例如,该系统可作为VR头盔的扩展,就算你戴着VR头盔也可被实时获取面部表情。

把这些表情实时导入VR社交软件中,即可将表情还原出来,并能提升沉浸感,从而让虚拟世界更真实。

类似地,在疫情期间即使大家都戴口罩,该系统也可捕捉到人们的表情。也可作为人机交互的无声语音接口,让用户通过做表情就能给电子产品发出指令。

该设备也有用于健康监控的潜在能力,通过长期监测用户表情,即可评估其认知功能,进而可用于阿兹海默症的早期预警。

据悉,此次论文也是武艺博士期间以一作身份发表的首篇顶会论文。在提交论文的截稿日几天前,他经历了一个小插曲:字号用错了。MobiCom要求10号字体及以上,而临到头他才发现一直使用9号字。如果没有发现及时,论文很有可能被拒稿,并导致团队努力付之东流。为此,武艺和团队连夜进行大幅删减、修改,赶在截稿日前一天完成全部论文写作。他说这个插曲给自己敲响了永生难忘的警钟。

武艺和该论文的另一位作者李倬航,目前均是田纳西大学EECS系的博士生,在刘健教授课题组MoSIS Lab攻读博士学位。他俩从本科时便是同学,均毕业于电子科技大学,硕士则毕业于罗格斯大学计算机工程系。

未来,该项目团队计划将通过设计定制型数据收集板,来进一步提高系统的能源效率,也将使用更紧凑的模拟和更少的通道。团队还计划开发一个与主要AR/VR平台(如OpenVR)兼容的API库和一款App,以便去支持各种移动设备。

快速申请