自定义数据增强用于低资源 ASR 的 Bark 和基于检索的语音转换

Nov, 2023

自定义数据增强用于低资源 ASR 的 Bark 和基于检索的语音转换

Custom Data Augmentation for low resource ASR using Bark and Retrieval-Based Voice Conversion

Anand Kamble, Aniket Tathe, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra

TL;DR本文提出了两种创新方法，用于为印地语等低资源语言构建定制的 Common Voice 数据集。第一种方法利用 Suno 开发的基于 Transformer 的文本到音频模型 Bark，结合 Meta 的 enCodec 和预训练的 HuBert 模型来增强 Bark 的性能。第二种方法采用检索式语音转换（RVC），并使用 Ozen 工具包进行数据准备。这两种方法为 ASR 技术的发展做出了贡献，并提供了有价值的见解，以解决构建低资源语言定制 Common Voice 数据集的挑战。此外，它们为实现高质量个性化语音生成提供了途径，适用于各种应用场景。

Abstract

This paper proposes two innovative methodologies to construct customized common voice datasets for low-resource languages like Hindi. The first methodology leverages →

common voice datasets low-resource languages bark retrieval-based voice conversion asr technology

发现论文，激发创造

逐步提升语音识别和语音转换

本论文中，我们提出了一种新颖的迭代方法，用于同时提高自动语音识别模型和语音转换模型。我们在低数据资源情况下，通过使用语音转换模型作为数据增强方法来进一步微调 ASR 模型，从而实验性地展示了两个模型的性能提高。

May, 2023

使用经过微调的 XLSR Wav2Vec2 在自定义数据集和 mBART 上对视频进行转录和翻译

通过最小的数据量，利用检索式语音转换和自监督表示的方法，对个性化语音识别模型进行训练，实现多语言视频内容转录和翻译的无障碍解决方案。

Mar, 2024

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

跨语言多说话人 TTS 和跨语言语音转换进行 ASR 数据增强

本文研究跨语种多人语音合成以及跨语种语音转换，并将其应用于自动语音识别（ASR）系统的数据增强。经过大量实验，我们证明了通过使用仅一个目标语言说话者进行模型训练，可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距，并通过我们的数据增强方法，在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。

Mar, 2022

低资源语音识别的语音合成数据增强

本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Apr, 2022

低资源印度语言中语音识别模型的调整

通过利用语音和文本资源采用适应和微调技术，提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别（ASR）性能，并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。

Jul, 2023

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

使用 Bark、mBART 和经过微调的 XLSR Wav2Vec2 进行端到端印地语到英语语音转换

该研究论文介绍了一种针对印度 - 英语翻译的端到端语音转换框架，通过集成最新的技术实现自动语音识别、神经机器翻译和文本转语音合成组件，提供了一种统一无缝的跨语言交流方法。

Jan, 2024

使用 Common Voice 数据集建立公平的语音识别系统

本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量，通过对多种固定大小的、精心制作的训练集进行微调，证明了演讲者多样性的重要性，并对 Common Voice 语料库进行了彻底分析，发现了应该被这个数据集的用户考虑的重要缺陷。

Jun, 2023