通过双层优化实现语音自动识别的联合无监督和有监督训练

Jan, 2024

通过双层优化实现语音自动识别的联合无监督和有监督训练

Joint Unsupervised and Supervised Training for Automatic Speech Recognition via Bilevel Optimization

A F M Saif, Xiaodong Cui, Han Shen, Songtao Lu, Brian Kingsbury...

TL;DR本文提出了一种新颖的基于双层优化训练的方法来训练用于自动语音识别（ASR）任务的声学模型，称之为双层联合无监督和有监督训练（BL-JUST）。BL-JUST 通过使用无监督损失和有监督损失进行下层和上层优化，利用最新的基于惩罚的双层优化的进展来解决这个具有可负担复杂度和严格收敛保证的挑战性 ASR 问题。通过在 LibriSpeech 和 TED-LIUM v2 数据集上进行广泛实验来评估 BL-JUST，在常用的预训练和微调策略上 BL-JUST 实现了更优异的性能。

Abstract

In this paper, we present a novel bilevel optimization-based training approach to training acoustic models for automatic speech recognition

bilevel optimization-based training automatic speech recognition bi-level joint unsupervised and supervised training acoustic models convergence guarantees

发现论文，激发创造

关于共同学习语音情感识别和自动语音识别的有效性和噪声稳健性

本文研究了一种联合的 ASR-SER 多任务学习方法，发现在低资源环境下，采用这种方式可通过对背景噪音的处理从而提高 ASR 词错误率和 SER 分类准确性，结果表明使得该方法产生比独立 ASR 和 SER 方法更具噪音抗干扰性的模型。

May, 2023

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

Maestro-U: 利用联合语音 - 文本表示学习进行零监督语音 ASR

在这篇论文中，我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型，即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了 Maestro-U 的表现，它可以使错误率降低 68.5％，并将 19 种语言的 CER 降到 15％以下。

Oct, 2022

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

使用非成对语音和文本的半监督序列到序列自动语音识别

本文提出了一种新的半监督训练方法，该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失，利用未配对的语音和文本数据，相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。

Apr, 2019

伪标签优于人工标注

本文介绍了使用自监督学习和半监督学习技术训练强力教师模型来产生高质量伪标签的方法，进而用这些标签来训练语音识别模型，取得了较好的结果。

Mar, 2022

联合掩码 CPC 和 CTC 训练用于自动语音识别

这篇论文介绍了一种利用自监督学习方法，通过单阶段训练自动语音识别模型，利用标记数据和非标记数据来训练模型，实现了对下游任务性能的直接优化，并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率，最后提出解决对比任务是计算 CTC 损失的正则化的假设。

Oct, 2020

使用双向递归神经网络联合学习相关的序列标注任务

本文提出了一种使用双向循环神经网络联合对应多个相关任务的新技术，用于在缺乏标点和格式化的自动语音识别输出中改善标点和大写字母的性能，并可扩展到联合建模任何其他相关序列标记任务。

Mar, 2017

一种利用非配对语音和文本进行低资源自动语音识别的补充联合训练方法

本篇论文介绍了如何利用未配对的语音和文本数据，通过生成相应的缺失部分进行模型训练，并提出了一种称为 CJT++ 的补充联合训练方法，包括伪标签的标签掩蔽和合成音频的梯度限制，以应对与真实数据的偏差。实验结果表明，相比于仅使用语音进行训练，所提出的基本 CJT 方法在干净 / 其他测试集上实现了显著的性能提升，CJT++ 重新训练进一步增强了性能，并在极低资源情况下特别优于相同模型大小和波束大小的 wav2vec2.0 模型。

Apr, 2022

语音翻译的大规模自监督和半监督学习

通过利用大量未标记的语音和文本数据（包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模）的预训练和自我训练，我们的实验结果表明，在不利用监督学习数据的前提下，通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法，能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。

Apr, 2021