使用经过微调的 XLSR Wav2Vec2 在自定义数据集和 mBART 上对视频进行转录和翻译

Mar, 2024

使用经过微调的 XLSR Wav2Vec2 在自定义数据集和 mBART 上对视频进行转录和翻译

Transcription and translation of videos using fine-tuned XLSR Wav2Vec2 on custom dataset and mBART

Aniket Tathe, Anand Kamble, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra

TL;DR通过最小的数据量，利用检索式语音转换和自监督表示的方法，对个性化语音识别模型进行训练，实现多语言视频内容转录和翻译的无障碍解决方案。

Abstract

This research addresses the challenge of training an asr model for personalized voices with minimal data. Utilizing just 14 minutes of custom audio from a YouTube video, we employ →

asr model personalized voices retrieval-based voice conversion cross-lingual self-supervised representations multilingual video content transcription and translation

发现论文，激发创造

XLS-R: 在大规模自监督下进行跨语言语音表示学习

本文介绍了 XLS-R，这是一个基于 Wav2vec 2.0 的用于跨语言语音表示学习的大规模模型，其在 128 种语言的近半百万小时的公开语音音频数据上进行训练，并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。

Nov, 2021

使用 Bark、mBART 和经过微调的 XLSR Wav2Vec2 进行端到端印地语到英语语音转换

该研究论文介绍了一种针对印度 - 英语翻译的端到端语音转换框架，通过集成最新的技术实现自动语音识别、神经机器翻译和文本转语音合成组件，提供了一种统一无缝的跨语言交流方法。

Jan, 2024

跨语言 monolingual wav2vec-2.0 的魔法尘

该研究提出了一种简单有效的跨语言转移学习方法，以适应资源匮乏语言的单语言 wav2vec-2.0 模型的自动语音识别（ASR），并通过使用目标语言中的一组适度大小的无标签语音数据集和几个 Dropout 不确定性驱动的自我训练（DUST）迭代进一步提高其性能。该调整后的 wav2vec-2.0 在目标语言 ASR 任务上达到了类似于训练了 53 种语言的顶级多语言 XLSR 模型的性能。

Oct, 2021

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

使用 XLSR-53 的印尼语自动语音识别

本研究基于 XLSR-53 预训练模型开发了印尼自动语音识别（ASR）系统，使用该模型能显著减少所需的非英语语言训练数据以达到竞争性的词错误率。研究使用了总计 24 小时、18 分钟、1 秒的数据，通过使用语言模型可以将词错误率从 20％降低到 12％。这些研究结果对于创造更好的印尼 ASR 系统并减少数据量方面进行了完善。

Aug, 2023

无监督跨语言表示学习用于语音识别

XLSR 是一种学习跨语言语音表示的模型，通过对多种语言的语音原始波形进行预训练来构建模型，上述模型建立在 wav2vec 2.0 的基础之上，可以使用单一模型完成多语言语音识别任务，并且具有更好的性能。

Jun, 2020

自定义数据增强用于低资源 ASR 的 Bark 和基于检索的语音转换

本文提出了两种创新方法，用于为印地语等低资源语言构建定制的 Common Voice 数据集。第一种方法利用 Suno 开发的基于 Transformer 的文本到音频模型 Bark，结合 Meta 的 enCodec 和预训练的 HuBert 模型来增强 Bark 的性能。第二种方法采用检索式语音转换（RVC），并使用 Ozen 工具包进行数据准备。这两种方法为 ASR 技术的发展做出了贡献，并提供了有价值的见解，以解决构建低资源语言定制 Common Voice 数据集的挑战。此外，它们为实现高质量个性化语音生成提供了途径，适用于各种应用场景。

Nov, 2023

基于 Transformer 的音视频前端技术为单人和多人视频实现语音识别

本文提出使用视频变压器替换三维卷积进行视觉特征提取，从而提高音频 - 视觉自动语音识别的性能，并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明，该方法在 LRS3-TED 上取得了国际领先的性能表现。另外，在多人音频 - 视觉自动语音识别方面，该方法相对于三维卷积实现了平均降低 2% 的性能损失。

Jan, 2022

Thai Wav2Vec2.0 在 CommonVoice V8 上的应用

为了改进泰语自动语音识别（ASR）模型在开源数据上的表现，我们使用了预训练 XLSR-Wav2Vec 模型和泰语 CommonVoice 语料库 V8 训练了一个新的 ASR 模型，并训练了一个三元语言模型来提高其性能。我们相信我们的模型将对泰国个人和 ASR 社区有益。

Aug, 2022

Lip2Vec: 通过隐藏到隐藏的视听表示映射实现高效稳健的视觉语音识别

基于 Lip2Vec 的视觉语音识别（VSR）模型通过学习先验模型，将嘴唇序列的编码潜在表示映射到对应的音频潜在表示，以实现有效的文本解码。利用现成的音频语音识别（ASR）模型将生成的音频表示解码为文本，该方法在 LRS3 数据集上实现了 26 的错误率（WER），并在 VoxCeleb 测试集上保持了合理的性能，为更灵活的口型阅读形式拉近了口语识别与视觉语音识别之间的性能差距。

Aug, 2023