应用 ASR 生成的文本进行语言模型预训练用于语音任务

Jul, 2022

应用 ASR 生成的文本进行语言模型预训练用于语音任务

ASR-Generated Text for Language Model Pre-training Applied to Speech Tasks

Valentin Pelloin, Franck Dary, Nicolas Herve, Benoit Favre, Nathalie Camelin...

TL;DR使用自动转录的大规模语音来改进口语语言建模，利用法国国家音频视觉学院收集的文本数据应用 ASR，并在现有模型（FlauBERT）微调或从头开始训练口语语言模型，生成新模型（FlauBERT-Oral），并在口语理解、电视节目分类和语音句法分析 3 个下游任务中评估其性能，结果表明，与初始化 FlauBERT 版本相比，FlauBERT-Oral 有望带来好处，表明尽管 ASR 生成的文本存在噪音，但仍可以用于构建口语语言模型。

Abstract

We aim at improving spoken language modeling (lm) using very large amount of automatically transcribed speech. We leverage the INA (French

spoken language modeling automatically transcribed speech lm flaubert-oral asr-generated text

发现论文，激发创造

利用支持性文本数据启动有限转录的自动语音识别系统开发

本文研究发现，使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别（ASR）的 word error rate，其中 lexicon 对于改善 ASR 性能没有多大作用，而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。

Feb, 2023

利用预训练语言模型生成人类可读的自动语音识别转录

本文提出了一个自动语音识别后处理模型，旨在将不正确和嘈杂的 ASR 输出转换为可读的文本，并使用元数据提取语料库构建了一种任务特定的数据集，并使用两阶段训练策略来微调 RoBERTa 预训练模型。在测试集上，我们的模型在可读性感知 WER（RA-WER）上比基线模型提高了 13.26％，在 BLEU 度量上提高了 17.53％。人类评估还证明我们的方法可以生成比基线更易读的转录本。

Feb, 2021

基于 BERT 的语言模型在口语转录中学习的实证研究

本文介绍了将自然语言处理的特性应用于口语语言理解上，包括不同的话语特征和多模态表现。该文尝试拆解口语的语言障碍和多重意思，并探讨了 BERT 和 RoBERTa 语言模型对 SLU 的适应性和局限性。文中还验证了语言模型对话语特征的表现，尤其是对于声学提示较少的语音模型的成果。

Sep, 2021

利用大型语言模型改进长篇口语翻译

本研究旨在通过微调大型语言模型，将长语音自动识别转换成短模块，以提高翻译质量，在三种语言上表现实验效果优于自动标点基线，同时使用两种条件解码策略提高输出的良好性。

Dec, 2022

FlauBERT: 无监督法语语言模型预训练

本文介绍了 FlauBERT 语言模型，该模型在大规模的、异构的法语语料库上进行了训练，并在多种自然语言处理任务中表现出色。作者分享了多个版本的 FlauBERT 模型以及名为 FLUE 的下游任务的统一评估协议，供法语 NLP 研究社区进行进一步的可重复实验。

Dec, 2019

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

Maestro-U: 利用联合语音 - 文本表示学习进行零监督语音 ASR

在这篇论文中，我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型，即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了 Maestro-U 的表现，它可以使错误率降低 68.5％，并将 19 种语言的 CER 降到 15％以下。

Oct, 2022

基于 Transformer 的模型在法语口语理解任务上的基准测试

本研究采用新的基准测试方法，重点评估了 13 种 Transformer 模型在两个已有的法语口语理解任务中的质量和其生态影响，并证明了压缩模型可以取得较大模型相似的结果，同时具有较小的生态环境影响。

Jul, 2022

高资源语音识别预训练改进低资源语音到文本翻译

本文研究通过使用大量训练数据的自动语音识别任务，对语音翻译进行预训练，以提高低资源环境下的语音翻译性能，其中预训练的声学模型起到了关键的作用，并且可用于不同语言对之间的翻译。经验证本方法效果显著，能够在真实的低资源任务中提高性能。

Sep, 2018