OxfordVGG 参加 EGO4D AV 转录挑战
本技术报告介绍了我们在音频字幕领域的研究,重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程,并呈现了我们实验的结果,包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音频字幕模型性能的影响。我们的代码和训练模型在 GitHub 和 Hugging Face Hub 上公开可用。
May, 2023
报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法,该方法通过对模型的训练计划进行修改改进了声音活动的检测性能,证明了采用现成的语音活动检测模型可以有效地消除误报,而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER,远远优于所有基线,在比赛中取得了第一名。
Oct, 2022
Audio-Visual Speech Recognition (AVSR) uses Whisper-Flamingo, a model that integrates visual features, to improve speech recognition and translation performance in noisy conditions for multiple languages.
Jun, 2024
本文介绍了 QuAVF@NTU-NVIDIA 团队在 Ego4D Talking to Me (TTM) Challenge 2023 中的参赛作品,该作品利用两个模型处理输入视频和语音,通过面部质量分数过滤嘈杂的面部输入数据并实现质量感知融合,取得了 67.4%的均值精度 (mAP) 的最优结果。
Jun, 2023
本文介绍了我们的 MSXF TTS 系统,使用了端到端 TTS 系统,并在训练阶段添加了一个约束损失。我们还研究了语音速度和音量对欺诈的影响。我们的团队在 ADD 挑战赛上获得了第四名。
Jan, 2022
本论文介绍了一个新的、多领域的英语语音识别语料库 ——GigaSpeech,它包含了来自有声读物、播客和 YouTube 等各种领域的高质量标记音频,提供了五个不同大小的训练子集,并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段,并过滤出低质量的转录片段。最终在 Athena、ESPnet、Kaldi 和 Pika 等流行的语音识别工具包上,提供了基准系统。
Jun, 2021
本文介绍了一个大规模的音频 - 视觉说话人识别数据集,用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份,并展示出比以前的成果更高的性能表现。
Jun, 2018
使用开源工具包与公开可用的数据,本文提出了一种 Open Whisper-style Speech Model (OWSM) 来训练语音模型,以解决以前无法公开访问的全流程模型开发所面临的性能提升、效率、鲁棒性、公正性和偏见等问题,并公开发布所有脚本、预训练模型和训练日志,以促进开放科学。
Sep, 2023
该研究提出了一种语音识别系统,专门用于适应资源有限的印度语言,采用 ASR 模型和 KenLM 语言模型,取得了较低的错误率。
Jul, 2023
本文通过调整 Prompt 的方式,从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手,探究了该模型 Whisper 的应用性能。实验证明,相对于默认 Prompt,本文提出的 Prompt 在零 - shot 任务上的表现提升了 10% 到 45%,并在一些数据集上甚至超越了 SotA 监督模型。此外,实验还揭示了 Whisper 的许多有趣属性,例如其对提示的鲁棒性、对语音口音的偏见,以及在潜在空间中的多语言理解。
May, 2023