混合模型中交替使用弱三音素 / BPE 对齐监督改善端到端 ASR

Feb, 2024

混合模型中交替使用弱三音素 / BPE 对齐监督改善端到端 ASR

Alternating Weak Triphone/BPE Alignment Supervision from Hybrid Model Improves End-to-End ASR

Jintao Jiang, Yingbo Gao, Mohammad Zeineldeen, Zoltan Tuske

TL;DR通过交替使用弱三音素 / BPE 对齐辅助训练模型，建议在中间层和编码器中使用三音素和 BPE 对齐计算交叉熵中间辅助损失来提高自动语音识别性能，同时降低字错率 10% 以上。

Abstract

In this paper, alternating weak triphone/bpe alignment supervision is proposed to improve end-to-end model training. Towards this end, triphone and BPE alignments are extracted using a pre-existing →

alternating weak triphone/bpe alignment supervision end-to-end model training hybrid asr system regularization effect word error rate reduction

发现论文，激发创造

融合模型的弱对齐监督改善端到端 ASR

本文旨在创建弱对齐监督以辅助端到端建模，在已有的混合 ASR 系统中产生训练音频的三音素对齐。我们在编码器的某一层上使用这些对齐创建交叉熵损失。与一般的一位有效交叉熵损失或带有损失加权的方法不同，我们在此使用带有标签平滑参数的交叉熵损失来规范监督。与使用一位有效交叉熵损失和带有损失加权的 CTC 损失进行实验相比，结果显示将弱对齐监督与标签平滑参数 0.5 放置在第三个编码器层上的方法优于另外两种方法，在 TED-LIUM 2 数据集上相对词错误率减小约 5%。将该方法直接应用于一个塔加路语端到端 ASR 系统时也得到类似的改进。

Nov, 2023

双语端到端自动语音识别：基于字节级子词

本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响，并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR，并在英语和普通话口述任务上进行实验，发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2％到 5％。

May, 2022

利用端到端自主训练的半监督自动语音识别

本文提出了一种基于端到端系统的自学习半监督自动语音识别方法，通过对无监督数据的伪标记迭代地增强有标记的数据，从而提高系统性能，实现数据增强效果，获得了 14.4% 的相对识别错误率改进。

Jan, 2020

使用音素级模型进行非流畅语音的弱监督强制对齐

本文提出了一种基于加权有限状态转换的 CTC 模型对齐算法，通过对常见口吃现象的刻画，提高了自动语音对齐的准确性和鲁棒性。在 TIMIT 数据集和 UCLASS 数据集上的实验结果表明，该算法的召回率有了显著提高。

May, 2023

Phoneme-BERT: 音素序列和 ASR 转录的联合语言建模

本文提出 PhonemeBERT 模型，利用音素信息和 ASR 转录文本的联合语言模型学习语音感知表示，从而提高 ASR 系统在噪声和领域外数据中的准确性，同时为下游任务提供额外的特征，并在低资源环境下进行了广泛评估，取得了在情感分析、问题分类和意图分类等任务上显著优于目前最好方法的效果。

Feb, 2021

Whistle: 数据高效的多语言和跨语音识别模型：通过弱语音监督方法实现

本文研究了预训练与弱语音监督的方法，提出了一种名为 Whistle 的数据有效 MCL-ASR 方法，通过国际音标转写，构建了一个基于 CommonVoice 数据集的实验平台，实验证明基于音素的模型在多语言语音识别中具有更好的性能和高数据效率。

Jun, 2024

TIPAA-SSL: 基于自监督学习和知识迁移的文本无关电话音频对齐

基于音素识别、表示学习和知识迁移，本文提出了一种新颖的文本无关音频对齐方法，利用自监督模型、维度降低模型和基于帧级音素分类器的强制对齐标签来产生多语言语音学表示，取得了优于传统方法的统计指标表现，在语言学习和语音处理系统中有应用意义。

May, 2024

ASR 的对比半监督学习

本文提出了一种名为对比半监督学习（Contrastive Semi-supervised Learning, CSL）的方法，通过挑选正负样本来替代直接预测教师生成的伪标签，并将其应用于翻译公共社交媒体视频的挑战任务中，从而比标准的交叉熵伪标签（CE-PL）减少了 8% 的 WER。

Mar, 2021

Mixed-Phoneme BERT: 用混合音素和超音素表示增强文本到语音的 BERT 模型

本文提出了使用混合音素和超音素表示来增强 BERT 模型的学习能力的 MixedPhoneme BERT，该模型将相邻的音素合并为超音素，并将音素序列和超音素序列组合作为模型输入，从而在文本到语音合成中获得了显着的性能提升并且速度快 3 倍。

Mar, 2022

以字音元和辅助单语损失的双语流式自动语音识别

我们介绍了一种支持英语作为主要语境的混合自动语音识别中的英语为辅助语境的双语解决方案，通过使用字素单元而不是音素单元的发音词典、完全双语对齐模型以及双语流转换模型、具有语种识别损失的并行编码器结构以及辅助损失的并行编码器，我们证明了辅助损失相比于语种识别损失在使并行编码器专门化到各自的单语语境方面更为优越，并且这有助于更强的双语学习。我们针对双语西班牙语（ES）和双语意大利语（IT）应用进行了大规模训练和测试任务的评估。我们的双语模型展示了良好的混合使用英语能力。特别是，在混合使用意大利语任务中，双语意大利语模型将词错误率（WER）从 46.5% 降低到 13.8%，同时在意大利语测试中也实现了与单语意大利语模型（9.5%）接近的匹配度（9.6%）。

Aug, 2023