使用主动说话者注意力模块的端到端多讲话人音频 - 视觉自动语音识别

Apr, 2022

使用主动说话者注意力模块的端到端多讲话人音频 - 视觉自动语音识别

End-to-end multi-talker audio-visual ASR using an active speaker attention module

Richard Rose, Olivier Siohan

TL;DR本文提出了一种新的终端对终端的音视频多人说话识别方法 - 视觉上下文注意力模型 (VCAM)，使用可用的视频信息将解码的文本分配给多个可见面孔中的一个，具有解决多人说话建模方法中的标签歧义问题，该方法实现为基于 Transformer-Transducer 的终端到终端模型，并使用来自 YouTube 视频的两个说话者音频 - 视觉重叠话语数据集进行评估，表明 VCAM 模型相对于之前报告的仅音频和音视频多人说话识别系统提高了性能。

Abstract

This paper presents a new approach for end-to-end audio-visual multi-talker speech recognition. The approach, referred to here as the visual context attention model (VCAM), is important because it uses the available video information to assign decoded text to one of multiple visible faces. This essentially resolves the →

end-to-end audio-visual multi-talker speech recognition visual context attention model transformer-transducer label ambiguity issue youtube videos

发现论文，激发创造

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

听觉、视觉与思考：基于预训练的文本 - 视频表示的视觉上下文感知语音识别

本研究致力于解决利用视觉信号来提高语音识别（ASR）的问题，探讨了一种基于自监督预训练的文本视频嵌入模型的视觉上下文感知 ASR 方法，该方法包括多流注意力结构和熟思（deliberation）模型，利用视觉信息的熟思模型比多流模型在干扰噪声下提高了语音识别正确率和恢复被屏蔽单词的准确率。

Nov, 2020

情境中的主动说话者

该论文提出了一种新的表示方法 Active Speaker Context，用于学习音视频观察中多个发言人之间的关系，并通过多态结构获得更好的检测表现，最终在 AVA-ActiveSpeaker 数据集上获得 mAP 为 87.1% 的优秀成果。

May, 2020

基于 Transformer 的多分辨率和多模式语音识别

本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别（AV-ASR）系统，特别关注视觉信息提供的场景背景，以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示，并使用附加的跨模态多头注意层融合视频特征。此外，我们还采用多任务培训标准用于多分辨率 ASR，同时训练模型生成字符和子词级转录。实验结果表明，多分辨率训练可以加速收敛速度约 50％，并且相对于子词预测模型，单词错误率（WER）性能提高了高达 18％。此外，融合视觉信息可以改善表现，在仅使用音频模型的基础上，相对增益高达 3.76％。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。

Apr, 2020

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

MLCA-AVSR：基于多层交叉注意力融合的音视频语音识别

提出了一种多层交叉注意力融合的视听语音识别方法，通过在不同的音频 / 视觉编码器层级融合各种模态，实现了每种模态的表示学习，实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能，并相对于前期系统获得了最多 3.17% 的相对改进，同时超过了第一名系统，获得了该数据集上的新的最先进 cpCER 为 29.13%。

Jan, 2024

探索上下文、注意力和音频特征用于音频视觉场景感知对话

本论文探讨了以话题作为对话背景，利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统，结合使用 end-to-end 音频分类卷积神经网络 AclNet，以音视频场景感知任务数据集 AVSD 进行测试，并提出了改进方案算法，优于现有基线系统。

Dec, 2019

基于多视角注意力网络的视觉对话

论文旨在通过提出 Multi-View Attention Network (MVAN) 模型来解决视觉对话任务中的挑战性问题，该模型基于注意机制，利用多个视角来处理异构输入，并且通过序列对齐过程构建多模态表示，从而可以更好地捕捉到对话历史中与问题相关的信息，并在 VisDial v1.0 数据集上达到了最佳结果。

Apr, 2020

基于混合 CTC / 注意力架构的音视频语音识别

本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型，并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点，并且在噪声环境下表现出色，是当前状态下最新的结果。

Sep, 2018

基于视觉感知的音频特征增强，用于稳健的端对端音视频语音识别

本文提出了一种噪声强韧的端到端的视听语音识别系统，其中使用视觉背景驱动音频特征增强模块（V-CAFE）通过考虑所获得的视觉背景来生成噪声降低掩模，进而提升音频特征，结合 Conformer 和 Transformer 模型进一步提高了噪声稳健性，并在大型视听数据集 LRS2 和 LRS3 上进行了实验验证。

Jul, 2022