OpenSR: 通过维护多模态对齐实现开放式语音识别

ACLJun, 2023

OpenSR: 通过维护多模态对齐实现开放式语音识别

OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality Alignment

Xize Cheng, Tao Jin, Linjun Li, Wang Lin, Xinyu Duan...

TL;DR本研究提出 OpenSR，通过维护来自高资源领域的未标记多媒体话语中音位空间中的多模态对齐，实现零样例模态转换，进而实现应用于不同模态的模型训练并采用基于聚类的提示调整策略来处理新域话语中的领域移位，结果表明 OpenSR 在三种不同设置下实现了模态转换，并在音视频语音识别和唇语识别方面取得了最先进的性能。

Abstract

speech recognition builds a bridge between the multimedia streaming (audio-only, visual-only or audio-visual) and the corresponding text transcription. However, when training the specific model of new domain, it often gets stuck in the lack of new-domain utterances, especially the labe

speech recognition modality transfer multi-modality alignment cluster-based prompt tuning strategy lip-reading

发现论文，激发创造

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

通过强化学习利用语言和视觉的模态特定表征进行音视频语音识别

我们提出了一个基于强化学习的框架（MSRL），动态地协调模态不变和模态特异性的表示，从而稳定地提供互补信息，用于音视频语音识别任务，实验结果表明，此方法在 LRS3 数据集中取得了最新的成果。

Dec, 2022

判别式多模态语音识别

本文提出了一种基于视听的两阶段语音识别模型，该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率，同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能，实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的性能提升，表明 AE-MSR 的必要性和有效性。

May, 2020

利用单模态自监督学习实现多模态音视频语音识别

本研究旨在通过使用未经标注的单模态数据和大规模的自监督学习来提高多模态音频 - 视觉语音识别，该方法在实验中表现出良好的效果，取得了相对改善 30% 的优越结果。

Feb, 2022

语言引导的具身化智能体多模式语音识别

本文提出了一种多模式自动语音识别模型，通过考虑附带的视觉上下文来减少口头指令的错误转录，使用了仿真的噪声环境。实验结果表明，使用多模态 ASR 模型可使任务完成的准确性得到提高。

Feb, 2023

序列到序列语音识别的多模态基础

本研究提出了基于多模态的端到端自适应语音识别系统，采用卷积神经网络获取视觉信息，与传统方法相比表现优越。

Nov, 2018

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015