UserLibri: 仅使用文本进行 ASR 个性化的数据集

Jul, 2022

UserLibri: 仅使用文本进行 ASR 个性化的数据集

UserLibri: A Dataset for ASR Personalization Using Only Text

Theresa Breiner, Swaroop Ramaswamy, Ehsan Variani, Shefali Garg, Rajiv Mathews...

TL;DR通过在移动设备上使用文本数据进行语言模型的个性化，提高了针对该用户的语音识别性能。利用 LibriSpeech 语料库和 Project Gutenberg 的个性化文本，我们对 55 个用户的文字 - 语音配对数据进行了实验，并提供了 UserLibri 数据集以帮助未来个性化研究。实验结果表明，在流媒体和非流媒体模型中，我们能够降低每个用户的平均单词错误率，其中在流媒体情况下，难度较大的测试集错误率下降了 2.5%

Abstract

personalization of speech models on mobile devices (on-device personali

personalization speech models mobile devices language model text-only data

发现论文，激发创造

Libri-Adapt: 用于无监督领域自适应的新语音数据集

本文介绍了一个新的数据集 Libri-Adapt，它是 LibriSpeech 语料库的扩展，包含来自 72 个不同领域的英语语音，可以支持语音识别模型的无监督领域自适应研究，并提供基线结果来量化这些领域转移对 Mozilla DeepSpeech2 ASR 模型的影响。

Sep, 2020

端设备个性化语音识别模型的研究调查

本文探讨利用个人化的端到端语音识别模型在移动设备上安全训练，使用户数据和模型不离开设备和服务器，以提高数据隐私和可扩展性。实验结果表明，在设备个性化的情况下，相对词误差率降低了 63.7％，性能略有下降（18.7％）但是最终实现了更好的数据隐私保护。

Sep, 2019

Libri-Light: 一项有限或无监督 ASR 基准测试

提供了一个适用于有限或无监督语音识别训练的口语英语音频集合，其中包含来自 LibriVox 项目的开源有声读物，已使用语音活动检测进行段分割，并标记有 SNR，说话者 ID 和流派描述，同时提供了基线系统和评估指标，分为三个设置进行评估。

Dec, 2019

LibriTTS：从 LibriSpeech 中衍生的用于文本转语音的语料库

该论文提出了一个新的语音语料库 LibriTTS，用于文本转语音，并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。

Apr, 2019

为增强 ASR 训练而选择文本转语音数据

本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本 — 语音转换（TTS）数据的大小。

May, 2023

使用法语翻译扩充 Librispeech：一种用于直接语音翻译评估的多模态语料库

本文介绍了使用 LibriSpeech 增强现有单语语料库的方法，建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库，并给出了相应的处理细节和手动评估结果，该平行语料库可以用于直接语音翻译或其他口语翻译实验。

Feb, 2018

Hi-Fi 多说者英语语音合成数据集

本文介绍了一个新的多说话人英语数据集用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本，采样率为 44.1 kHz，每个说话者至少有 17 小时的语音。为了选择高质量的语音样本，我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比（SNR）的音频记录。该数据集已公开发布在此 http 网址。

Apr, 2021

利用支持性文本数据启动有限转录的自动语音识别系统开发

本文研究发现，使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别（ASR）的 word error rate，其中 lexicon 对于改善 ASR 性能没有多大作用，而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。

Feb, 2023

LibriS2S: 一份德英语音到语音翻译语料库

该研究找出了语音到语音翻译领域所面临的主要限制是缺乏合适的培训数据。为了解决这个问题，研究人员创建了一个公开可用的语音到语音训练语料库 ——LibriS2S。基于这个语料库，提出了基于 FastSpeech 2 模型的新文本到语音模型，以及如何使模型直接根据源语言的发音来生成语音信号。

Apr, 2022

从文本学会说话：无监督文本预训练的零射多语言语音合成

使用零样本学习和多语言语言模型，该研究提出了一种只使用目标语言文本数据进行多语言语音合成（TTS）的方法，其能够成功地为只有文本资源的低资源语言开发 TTS 系统，大大拓展了 TTS 的覆盖范围并能取得高度理解度。

Jan, 2023