多模式语音识别及非结构化语音掩蔽

EMNLPOct, 2020

多模式语音识别及非结构化语音掩蔽

Multimodal Speech Recognition with Unstructured Audio Masking

Tejas Srinivasan, Ramon Sanabria, Florian Metze, Desmond Elliott

TL;DR本篇论文研究了在嘈杂的情况下，如何通过视觉上下文提升语音识别的准确性，并通过模拟 RandWordMask 掩码模式验证了多模态 ASR 系统在不同掩码模式下的泛化能力，结论显示在一定程度上可提升 ASR 系统的能力。

Abstract

visual context has been shown to be useful for automatic speech recognition (ASR) systems when the speech signal is noisy or corrupted. Previous work, however, has only demonstrated the utility of →

visual context speech recognition multimodal asr masking scenario flickr 8k audio captions corpus

发现论文，激发创造

看能增强听：使用图像恢复丢失的语音

本研究探讨了利用图像确立语音识别模型中文字的语义含义，以减少噪音干扰并提高模型鲁棒性的方法。实验结果表明整合视觉信息可以显著提高模型性能，增强语音信号对语音识别的帮助

Feb, 2020

语言引导的具身化智能体多模式语音识别

本文提出了一种多模式自动语音识别模型，通过考虑附带的视觉上下文来减少口头指令的错误转录，使用了仿真的噪声环境。实验结果表明，使用多模态 ASR 模型可使任务完成的准确性得到提高。

Feb, 2023

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

该研究提出了一种音频 - 文本交叉模态表示提取器，通过 attention 机制，将上下文文本表示作为上下文提供给 ASR 解码器，有效地提高了智能语音识别的性能。

Jul, 2022

ViLaS: 将视觉和语言集成到自动语音识别中

提出一种多模态自动语音识别模型（ViLaS），能够同时或分别集成视觉和语言线索来帮助识别输入语音，提出一种训练策略，从而提高在模态不完整的测试场景中的性能，并创建一个包含视觉和语言线索的多模态 ASR 数据集（VSDial），探索融合视觉和语言的效果。在 Flickr8K 和自构架构的 VSDial 数据集上进行实证结果报告，调查跨模态融合方案，并对 VSDial 上的细粒度跨模态对齐进行分析。

May, 2023

基于 Transformer 的多分辨率和多模式语音识别

本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别（AV-ASR）系统，特别关注视觉信息提供的场景背景，以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示，并使用附加的跨模态多头注意层融合视频特征。此外，我们还采用多任务培训标准用于多分辨率 ASR，同时训练模型生成字符和子词级转录。实验结果表明，多分辨率训练可以加速收敛速度约 50％，并且相对于子词预测模型，单词错误率（WER）性能提高了高达 18％。此外，融合视觉信息可以改善表现，在仅使用音频模型的基础上，相对增益高达 3.76％。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。

Apr, 2020

序列到序列语音识别的多模态基础

本研究提出了基于多模态的端到端自适应语音识别系统，采用卷积神经网络获取视觉信息，与传统方法相比表现优越。

Nov, 2018

听觉、视觉与思考：基于预训练的文本 - 视频表示的视觉上下文感知语音识别

本研究致力于解决利用视觉信号来提高语音识别（ASR）的问题，探讨了一种基于自监督预训练的文本视频嵌入模型的视觉上下文感知 ASR 方法，该方法包括多流注意力结构和熟思（deliberation）模型，利用视觉信息的熟思模型比多流模型在干扰噪声下提高了语音识别正确率和恢复被屏蔽单词的准确率。

Nov, 2020

基于上下文的语音修补：以视频为导向的语音合成

本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题，该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型，同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。

Jun, 2023

面向上下文感知语音识别的视觉特征

该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性，通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录，可以应用于机器人、人机交互及音视频存档索引等领域。

Dec, 2017