Jul, 2023

OxfordVGG 参加 EGO4D AV 转录挑战

TL;DR这篇报告介绍了我们(OxfordVGG 团队)参与 EGO4D 音频 - 视觉自动语音识别挑战 2023 的技术细节。我们提出了 WhisperX 系统,用于高效转录长篇音频,并具有单词级别的时间对齐,同时还提供了两个公开可用的文本规范化器。我们的最终提交在挑战测试集中取得了 56.0% 的词错误率(WER),在排行榜上位居第一。该报告还提供了所有基准代码和模型的链接。