audio-visual speech recognition | BriefGPT

关键词audio-visual speech recognition

搜索结果 - 24

Whisper-Flamingo: 集成视觉特征于 Whisper 中用于音频 - 视觉语音识别和翻译
Audio-Visual Speech Recognition (AVSR) uses Whisper-Flamingo, a model that integrates visual features, to improve speech
PDF20 days ago
ViSpeR: 多语言音视频语音识别
该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上，对音视频语音识别（AVSR）进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练，在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争
PDFa month ago
混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别
通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。
PDF4 months ago
CVPR关于辍学引发的韧性研究，对于音频视觉语音识别中缺失视频帧的影响
研究了音频 - 视觉语音识别系统对缺失视频帧的敏感性问题，表明在应用 dropout 技术提高对缺失帧的鲁棒性的同时，也导致对完整数据输入性能的损失。通过揭示由于 dropout 引起的对音频存在过多的模态偏差，探究了这一对立现象，同时提出
PDF4 months ago
SlideAVSR：用于视听语音识别的论文解释视频数据集
通过构建 SlideAVSR 数据集，这篇论文提出了一种用于科学论文解释视频的 AVSR 数据集，旨在为模型提供在演示录音中将语音话语转录为滑动演示文本的基准评估。同时，论文还介绍了一种名为 DocWhisper 的简单但有效的 AVSR
PDF6 months ago
MLCA-AVSR：基于多层交叉注意力融合的音视频语音识别
提出了一种多层交叉注意力融合的视听语音识别方法，通过在不同的音频 / 视觉编码器层级融合各种模态，实现了每种模态的表示学习，实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为
PDF6 months ago
AV-CPL: 面向音视频语音识别的连续伪标记
通过连续的伪标签生成解决了音频 - 视觉语音识别的半监督训练问题，同时提高了视觉语音识别性能并保持了实用性。
PDF9 months ago
通过唇语子词相关性进行视觉预训练和交叉模态融合编码的提高音频视觉语音识别
本文提出了两种新技术来改善音视频语音识别，通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位，以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明，使用相对较少的训练数据，该系统比复杂的前
PDFa year ago
ACL嘈杂环境下唇读识别：通用视音位映射与转移提升音视频语音识别鲁棒性
本文提出了一种基于视觉模态的无监督噪声适应方案，使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明，我们的方法
PDFa year ago
ACLMIR-GAN：用对抗网络提炼用于音视频语音识别的帧层次模态不变表示
本文提出了一种基于对抗网络的方法（MIR-GAN），旨在跨模态学习共享的表征，以减轻后续的多模态融合过程，并在公共基准 LRS3 和 LRS2 上得到了比现有技术更好的表现。
PDFa year ago
MAVD：首个带深度信息的开放式大规模普通话视听数据集
这项工作旨在建立 MAVD，这是一个新的大规模普通话多模态语料库，包括由 64 名中国本土说话者发出的 12,484 个话语，其中包括深度信息，可用于评估音频视觉语音识别的有效性。
PDFa year ago
发掘 Web 规模语音模型的潜在能力，实现零样本任务的普适性
本文通过调整 Prompt 的方式，从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手，探究了该模型 Whisper 的应用性能。实验证明，相对于默认 Prompt，本文提出的 Prompt 在零 - shot 任务上的表现提升了
PDFa year ago
IJCAI跨模态全局交互与局部对齐的视听语音识别
本文提出了一种跨模态全局交互和局部对齐 (GILA) 方法，从全局和局部角度捕捉音频 - 视觉 (A-V) 间的深层相关性，用于改善音频 - 视觉语音识别中的多模态表示，实验结果表明我们的方法优于现有的有监督学习方法。
PDFa year ago
CVPR通过视觉损坏建模和可靠性评分，实现强大的视听口语识别
本文针对音频和视频同时受损的多模态输入情况下的视音频说话人识别问题展开研究，通过分析现有模型的不足并引入多模态输入损坏模型来设计一个稳健的 AVSR 模型框架，即 AV-RelScore，通过可靠性得分确定可靠输入流并提高识别准确度。
PDFa year ago
AV-data2vec：具有语境目标表示的自监督学习音视频语音表征
本文介绍了一个名为 AV-data2vec 的模型，该模型利用预测上下文表示来构建音频 - 视觉表示，可以结合音频和视频来提高语音识别性能，相比现有方法，在大多数情况下，AV-data2vec 的表现都更好。
PDFa year ago
AAAI通过强化学习利用语言和视觉的模态特定表征进行音视频语音识别
我们提出了一个基于强化学习的框架（MSRL），动态地协调模态不变和模态特异性的表示，从而稳定地提供互补信息，用于音视频语音识别任务，实验结果表明，此方法在 LRS3 数据集中取得了最新的成果。
PDF2 years ago
VATLM：基于联合掩码预测的视听文字预训练方法，用于语音表示学习
本文采用统一的跨模态表示学习框架 VATLM，通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入，以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中，优化下游任务的结果表明，VATLM 在音频 - 视觉相关的下游任
PDF2 years ago
基于视觉感知的音频特征增强，用于稳健的端对端音视频语音识别
本文提出了一种噪声强韧的端到端的视听语音识别系统，其中使用视觉背景驱动音频特征增强模块（V-CAFE）通过考虑所获得的视觉背景来生成噪声降低掩模，进而提升音频特征，结合 Conformer 和 Transformer 模型进一步提高了噪声稳
PDF2 years ago
ACL利用单模态自监督学习实现多模态音视频语音识别
本研究旨在通过使用未经标注的单模态数据和大规模的自监督学习来提高多模态音频 - 视觉语音识别，该方法在实验中表现出良好的效果，取得了相对改善 30% 的优越结果。
PDF2 years ago
CI-AVSR: 一份用于汽车指令识别的粤语音频视觉语音数据集
本文提出了一个新的中文粤语数据集 - Cantonese In-car Audio-Visual Speech Recognition (CI-AVSR)，用于研究车内指令识别。使用视觉和音频数据来识别汽车相关的指令，并采用常见的车内背景噪
PDF2 years ago