AI 看唇语，在嘈杂场景的语音识别准确率高达75%

来源：admin 更新时间：2023-11-19 点击数：622

出品|AI科技大本营（ID:rgznai100）

人们通过聆听和观察说话者的嘴唇动作来感知言语。

那么，AI也可以吗？

事实上，研究表明视觉线索在语言学习中起着关键的作用。相比之下，人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练，通常需要数万小时的记录。

为了研究视觉效果，尤其是嘴部动作的镜头，是否可以提高语音识别系统的性能。Meta的研究人员开发了Audio-VisualHiddenUnitBERT(AV-HuBERT)，这是一个通过观看学习和听人们说话来理解语言的框架。

MetaAI研究科学家AbdelrahmanMohamed表示：“在未来，像AV-HuBERT这样的AI框架可用于提高语音识别技术在嘈杂的日常条件下的性能，例如，在聚会上或在熙熙攘攘的街头中进行的互动。智能手机中的助手、增强现实眼镜和配备摄像头的智能扬声器，例如AlexaEchoShow也可以在这项技术中受益。”

目前，Meta已将相关代码开源到GitHub。

AV-HuBERT

有点独特的是，AV-HuBERT利用了无监督或自我监督的学习。通过监督学习，像DeepMind这样的算法在标记的示例数据上进行训练，直到它们可以检测到示例和特定输出之间的潜在关系。例如，系统可能会被训练在显示柯基的图片时写出单词「dog」。然而，AV-HuBERT自学对未标记的数据进行分类，处理数据以从其固有结构中学习。

AV-HuBERT也是多模态的，因为它通过一系列的音频和唇部动作提示来学习感知语言。通过结合说话过程中嘴唇和牙齿的运动等线索以及听觉信息，AV-HuBERT可以捕捉这两种数据类型之间的细微关联。

事实上，Meta声称当背景中播放响亮的音乐或噪音时，AV-HuBERT在识别一个人的语音方面比纯音频模型好约50%，当语音和背景噪音同样响亮时，AV-HuBERT的WER为3.2%，而之前的最佳多模式模型为25.5%。

潜在的缺点

在许多方面来看，AV-HuBERT象征着Meta在用于复杂任务的无监督、多模式技术方面不断增长的投资。

Meta表示AV-HuBERT可以为开发“低资源”语言的对话模型开辟可能性。该公司建议，AV-HuBERT还可用于为有语言障碍的人创建语音识别系统，以及检测深度伪造和为虚拟现实化身生成逼真的嘴唇运动。

在各方面数据上，新方法的变现着实很精彩，但也有学者有一些担忧。

其中，华盛顿大学的人工智能伦理学专家OsKeye就提到，对于因患有唐氏综合征、中风等疾病而导致面部瘫痪的人群，依赖读唇的语音识别还有意义吗？

在微软和卡内基梅隆大学的一篇论文中，提出了人工智能公平性研究路线图，指出类似于AV-HuBERT的面部分析系统的某些方面可能不适用于患有唐氏综合症、软骨发育不全（损害骨骼生长）和“导致特征性面部差异的其他条件”等。

Meta表示，它将“继续在背景噪声和说话者重叠很常见的日常场景中进行基准测试和开发改进视听语音识别模型的方法。”