OxfordVGG 参加 EGO4D AV 转录挑战

Jul, 2023

OxfordVGG Submission to the EGO4D AV Transcription Challenge

Jaesung Huh, Max Bain, Andrew Zisserman

TL;DR这篇报告介绍了我们（OxfordVGG 团队）参与 EGO4D 音频 - 视觉自动语音识别挑战 2023 的技术细节。我们提出了 WhisperX 系统，用于高效转录长篇音频，并具有单词级别的时间对齐，同时还提供了两个公开可用的文本规范化器。我们的最终提交在挑战测试集中取得了 56.0% 的词错误率（WER），在排行榜上位居第一。该报告还提供了所有基准代码和模型的链接。

Abstract

This report presents the technical details of our submission on the EGO4D Audio-Visual (AV) Automatic Speech Recognition Challenge 2023 from the OxfordVGG team. We present WhisperX, a system for efficient speech transcription of long-form audio with →

audio-visual automatic speech recognition whisperx system long-form audio word-level time alignment word error rate

发现论文，激发创造

使用合成字幕和迁移学习训练的音频字幕的 Whisper 变形器

本技术报告介绍了我们在音频字幕领域的研究，重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程，并呈现了我们实验的结果，包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音频字幕模型性能的影响。我们的代码和训练模型在 GitHub 和 Hugging Face Hub 上公开可用。

May, 2023

2022 年 Ego4D 挑战赛中英特尔实验室：音视频对话更优秀的基线

报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法，该方法通过对模型的训练计划进行修改改进了声音活动的检测性能，证明了采用现成的语音活动检测模型可以有效地消除误报，而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER，远远优于所有基线，在比赛中取得了第一名。

Oct, 2022

Whisper-Flamingo: 集成视觉特征于 Whisper 中用于音频 - 视觉语音识别和翻译

Audio-Visual Speech Recognition (AVSR) uses Whisper-Flamingo, a model that integrates visual features, to improve speech recognition and translation performance in noisy conditions for multiple languages.

Jun, 2024

QuAVF: 面向 Ego4D Talking to Me 挑战的音视频融合质量感知技术

本文介绍了 QuAVF@NTU-NVIDIA 团队在 Ego4D Talking to Me (TTM) Challenge 2023 中的参赛作品，该作品利用两个模型处理输入视频和语音，通过面部质量分数过滤嘈杂的面部输入数据并实现质量感知融合，取得了 67.4％的均值精度 (mAP) 的最优结果。

Jun, 2023

ICASSP 2022 ADD 挑战赛的 MSXF TTS 系统

本文介绍了我们的 MSXF TTS 系统，使用了端到端 TTS 系统，并在训练阶段添加了一个约束损失。我们还研究了语音速度和音量对欺诈的影响。我们的团队在 ADD 挑战赛上获得了第四名。

Jan, 2022

GigaSpeech: 一个拥有 10,000 小时转录音频的不断发展的多领域 ASR 语料库

本论文介绍了一个新的、多领域的英语语音识别语料库 ——GigaSpeech，它包含了来自有声读物、播客和 YouTube 等各种领域的高质量标记音频，提供了五个不同大小的训练子集，并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段，并过滤出低质量的转录片段。最终在 Athena、ESPnet、Kaldi 和 Pika 等流行的语音识别工具包上，提供了基准系统。

Jun, 2021

VoxCeleb2：深度语音说话人识别

本文介绍了一个大规模的音频 - 视觉说话人识别数据集，用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份，并展示出比以前的成果更高的性能表现。

Jun, 2018

利用开源工具和公开数据复现 Whisper-Style 训练

使用开源工具包与公开可用的数据，本文提出了一种 Open Whisper-style Speech Model (OWSM) 来训练语音模型，以解决以前无法公开访问的全流程模型开发所面临的性能提升、效率、鲁棒性、公正性和偏见等问题，并公开发布所有脚本、预训练模型和训练日志，以促进开放科学。

Sep, 2023

Transsion TSUP 的语音识别系统用于 ASRU 2023 MADASR 挑战

该研究提出了一种语音识别系统，专门用于适应资源有限的印度语言，采用 ASR 模型和 KenLM 语言模型，取得了较低的错误率。

Jul, 2023

发掘 Web 规模语音模型的潜在能力，实现零样本任务的普适性

本文通过调整 Prompt 的方式，从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手，探究了该模型 Whisper 的应用性能。实验证明，相对于默认 Prompt，本文提出的 Prompt 在零 - shot 任务上的表现提升了 10% 到 45%，并在一些数据集上甚至超越了 SotA 监督模型。此外，实验还揭示了 Whisper 的许多有趣属性，例如其对提示的鲁棒性、对语音口音的偏见，以及在潜在空间中的多语言理解。

May, 2023