融合模型的弱对齐监督改善端到端 ASR

Nov, 2023

融合模型的弱对齐监督改善端到端 ASR

Weak Alignment Supervision from Hybrid Model Improves End-to-end ASR

Jintao Jiang, Yingbo Gao, Zoltan Tuske

TL;DR本文旨在创建弱对齐监督以辅助端到端建模，在已有的混合 ASR 系统中产生训练音频的三音素对齐。我们在编码器的某一层上使用这些对齐创建交叉熵损失。与一般的一位有效交叉熵损失或带有损失加权的方法不同，我们在此使用带有标签平滑参数的交叉熵损失来规范监督。与使用一位有效交叉熵损失和带有损失加权的 CTC 损失进行实验相比，结果显示将弱对齐监督与标签平滑参数 0.5 放置在第三个编码器层上的方法优于另外两种方法，在 TED-LIUM 2 数据集上相对词错误率减小约 5%。将该方法直接应用于一个塔加路语端到端 ASR 系统时也得到类似的改进。

Abstract

In this paper, we aim to create weak alignment supervision to aid the end-to-end modeling. Towards this end, we use the existing hybrid ASR system to produce triphone alignments of the training audios. We then cr

weak alignment supervision end-to-end modeling cross-entropy loss label smoothing parameter wer reduction

发现论文，激发创造

混合模型中交替使用弱三音素 / BPE 对齐监督改善端到端 ASR

通过交替使用弱三音素 / BPE 对齐辅助训练模型，建议在中间层和编码器中使用三音素和 BPE 对齐计算交叉熵中间辅助损失来提高自动语音识别性能，同时降低字错率 10% 以上。

Feb, 2024

利用端到端自主训练的半监督自动语音识别

本文提出了一种基于端到端系统的自学习半监督自动语音识别方法，通过对无监督数据的伪标记迭代地增强有标记的数据，从而提高系统性能，实现数据增强效果，获得了 14.4% 的相对识别错误率改进。

Jan, 2020

CTC 基础语音识别中的中间损失正则化

本文提出了一种基于 CTC 目标的自动语音识别（ASR）的简单而高效的辅助损失函数，结合随机深度训练，应用于最近提出的 Conformer 网络，能够在没有语言模型的情况下实现 9.9％的单词错误率和 5.2％的字符错误率。

Feb, 2021

使用音素级模型进行非流畅语音的弱监督强制对齐

本文提出了一种基于加权有限状态转换的 CTC 模型对齐算法，通过对常见口吃现象的刻画，提高了自动语音对齐的准确性和鲁棒性。在 TIMIT 数据集和 UCLASS 数据集上的实验结果表明，该算法的召回率有了显著提高。

May, 2023

端到端自动语音识别：从受监督学习到半监督学习与现代架构

本文研究了 ResNet、时深分离卷积神经网络和变压器等半监督训练方法，在标准数据集 LibriSpeech 上，通过伪标签来利用来自 LibriVox 的额外未标记数据。研究结果表明，半监督训练可以改善所有架构和损失函数的模型，并在它们之间缩小性能差距，在标准监督学习设置下，获得了端到端声学模型的最新技术水平，并且半监督训练取得了新的绝对技术水平。此外，文章研究了利用不同数量的未标记音频的效果，并提出了几种评估未标记音频特性的方法，证明使用更多的音频进行训练能够减少对外部语言模型的依赖。

Nov, 2019

ASR 的对比半监督学习

本文提出了一种名为对比半监督学习（Contrastive Semi-supervised Learning, CSL）的方法，通过挑选正负样本来替代直接预测教师生成的伪标签，并将其应用于翻译公共社交媒体视频的挑战任务中，从而比标准的交叉熵伪标签（CE-PL）减少了 8% 的 WER。

Mar, 2021

多假设 RNN-T 损失函数用于神经传输器的无监督微调和自学习

本文提出了一种新的方法，利用未标记的语音数据对递归神经网络转录器端对端自动语音识别系统进行无监督的微调和自我训练，其中包括引入多重假设 RNN-T 损失以缓解 ASR 错误对无标记数据的影响，并在 Librispeech，Wall Street Journal（WSJ），Aurora-4 和 CHiME-4 数据集上进行实验，显著提高了系统性能。

Jul, 2022

提升弱到强泛化性能的可靠性感知对齐

通过提高弱监督信号的可靠性，我们的方法有效地识别了弱标签的质量，并显著提高了弱到强泛化能力，降低了噪声监督的误差传播，增强了大型语言模型的准确性和可靠性。

Jun, 2024

端到端弱监督

通过聚合多个弱监督数据源，本研究提出一种直接使用神经网络重参数化概率先验标签，从而直接学习下游模型的端到端方法，取得了端模型性能和弱监督数据依赖性方面的改进。

Jul, 2021

基于令牌加权的 RNN-T 模型用于学习有缺陷的数据

使用基于标记权重的 RNN-T 准则来缓解音频识别中的转录错误，并且在半监督学习中使用该方法可以显著提高准确性。

Jun, 2024