混合模型中交替使用弱三音素 / BPE 对齐监督改善端到端 ASR
本文旨在创建弱对齐监督以辅助端到端建模,在已有的混合 ASR 系统中产生训练音频的三音素对齐。我们在编码器的某一层上使用这些对齐创建交叉熵损失。与一般的一位有效交叉熵损失或带有损失加权的方法不同,我们在此使用带有标签平滑参数的交叉熵损失来规范监督。与使用一位有效交叉熵损失和带有损失加权的 CTC 损失进行实验相比,结果显示将弱对齐监督与标签平滑参数 0.5 放置在第三个编码器层上的方法优于另外两种方法,在 TED-LIUM 2 数据集上相对词错误率减小约 5%。将该方法直接应用于一个塔加路语端到端 ASR 系统时也得到类似的改进。
Nov, 2023
本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响,并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR,并在英语和普通话口述任务上进行实验,发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2%到 5%。
May, 2022
本文提出了一种基于端到端系统的自学习半监督自动语音识别方法,通过对无监督数据的伪标记迭代地增强有标记的数据,从而提高系统性能,实现数据增强效果,获得了 14.4% 的相对识别错误率改进。
Jan, 2020
本文提出了一种基于加权有限状态转换的 CTC 模型对齐算法,通过对常见口吃现象的刻画,提高了自动语音对齐的准确性和鲁棒性。在 TIMIT 数据集和 UCLASS 数据集上的实验结果表明,该算法的召回率有了显著提高。
May, 2023
本文提出 PhonemeBERT 模型,利用音素信息和 ASR 转录文本的联合语言模型学习语音感知表示,从而提高 ASR 系统在噪声和领域外数据中的准确性,同时为下游任务提供额外的特征,并在低资源环境下进行了广泛评估,取得了在情感分析、问题分类和意图分类等任务上显著优于目前最好方法的效果。
Feb, 2021
本文研究了预训练与弱语音监督的方法,提出了一种名为 Whistle 的数据有效 MCL-ASR 方法,通过国际音标转写,构建了一个基于 CommonVoice 数据集的实验平台,实验证明基于音素的模型在多语言语音识别中具有更好的性能和高数据效率。
Jun, 2024
基于音素识别、表示学习和知识迁移,本文提出了一种新颖的文本无关音频对齐方法,利用自监督模型、维度降低模型和基于帧级音素分类器的强制对齐标签来产生多语言语音学表示,取得了优于传统方法的统计指标表现,在语言学习和语音处理系统中有应用意义。
May, 2024
本文提出了一种名为对比半监督学习(Contrastive Semi-supervised Learning, CSL)的方法,通过挑选正负样本来替代直接预测教师生成的伪标签,并将其应用于翻译公共社交媒体视频的挑战任务中,从而比标准的交叉熵伪标签(CE-PL)减少了 8% 的 WER。
Mar, 2021
本文提出了使用混合音素和超音素表示来增强 BERT 模型的学习能力的 MixedPhoneme BERT,该模型将相邻的音素合并为超音素,并将音素序列和超音素序列组合作为模型输入,从而在文本到语音合成中获得了显着的性能提升并且速度快 3 倍。
Mar, 2022
我们介绍了一种支持英语作为主要语境的混合自动语音识别中的英语为辅助语境的双语解决方案,通过使用字素单元而不是音素单元的发音词典、完全双语对齐模型以及双语流转换模型、具有语种识别损失的并行编码器结构以及辅助损失的并行编码器,我们证明了辅助损失相比于语种识别损失在使并行编码器专门化到各自的单语语境方面更为优越,并且这有助于更强的双语学习。我们针对双语西班牙语(ES)和双语意大利语(IT)应用进行了大规模训练和测试任务的评估。我们的双语模型展示了良好的混合使用英语能力。特别是,在混合使用意大利语任务中,双语意大利语模型将词错误率(WER)从 46.5% 降低到 13.8%,同时在意大利语测试中也实现了与单语意大利语模型(9.5%)接近的匹配度(9.6%)。
Aug, 2023