将无栅格情境相关 MMi 集成到端到端语音识别中

Mar, 2022

将无栅格情境相关 MMi 集成到端到端语音识别中

Integrating Lattice-Free MMI into End-to-End Speech Recognition

Jinchuan Tian, Jianwei Yu, Chao Weng, Yuexian Zou, Dong Yu

TL;DR本研究将另一种判别准则 —— 无格最大互信息（LF-MMI）整合到端到端自动语音识别系统（E2E ASR）的训练和解码过程中，与 MBR 相比，实现了训练和解码之间的一致性，提高了训练效率，表现出 SOTA 绩效。

Abstract

In automatic speech recognition (ASR) research, discriminative criteria have achieved superior performance in DNN-HMM systems. Given this success, the adoption of →

automatic speech recognition discriminative criteria end-to-end systems lattice-free maximum mutual information neural transducers

发现论文，激发创造

一种有效的端到端建模方法用于发音错误检测

本研究采用 E2E 模型中的混合 CTC-Attention 方法，并针对中文发音检测任务进行了输入扩充，使结果更加适合该任务。实验结果表明，与传统的混合 DNN-HMM 系统相比，该方法能够大大简化处理流程并显著提高性能。

May, 2020

关于内部语言模型与序列判别式训练在神经传达器中的关系

内部语言模型减法与序列鉴别训练在语音识别中表现类似，通过实证研究证明二者性能相近，同时了解序列鉴别训练对常用零编码器内部语言模型估计产生极小影响，但对包括内部语言模型和空白抑制的编码器和预测 + 联合网络的后验概率重整具有联合效应。

Sep, 2023

一种端到端的 L2 英语语音错误发音检测系统，利用新型抗噪声建模技术

本论文提出了一种新的端到端自动语音识别方法，使用扩展后的原始 L2 语音集和其对应的反语音集，以更好地识别分类和非分类发音错误，并通过转移学习范式来获得 E2E-based MDD 系统的初始模型估计，在 L2-ARCTIC 数据集上进行了广泛的实验，结果表明我们的最佳系统在 F1 分数方面胜过现有的 E2E 基线系统和基于发音评分 (GOP) 的方法，分别提高了 11.05% 和 27.71%。

May, 2020

一种基于似然比的 E2E 模型领域自适应方法

本研究提出了一种基于上下文偏差和似然比的方法，用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标，在多个跨领域数据集上相对提高了 10％的识别正确率，同时也优化了 8-Best Oracle WER。

Jan, 2022

使用词级 N-Gram 语言模型改进普通话端到端语音识别

本研究提出了一种新型的解码算法，可以结合外部语言模型，构建单词级别的 lattice，用于提高语音识别的表现，并在 Aishell-1 和 Aishell-2 的数据集上取得了最优结果。

Jan, 2022

领域适应端到端语音识别的内部语言模型估计

提出了一种内部语言模型估计（ILME）方法，用于在无需额外模型训练的情况下，更有效地集成外部 LM 并改善端到端自动语音识别中的域不匹配问题，包括最受欢迎的循环神经网络转录器（RNN-T）和基于注意力的编码器 - 解码器（AED）模型。

Nov, 2020

MIND: 基于最大互信息的神经解码器

本文提出了一种基于互信息的神经编码器（MIND）来优化数字通信系统中的检测 / 解码问题的最优神经架构。

May, 2022

MBR 和 QE 微调：训练时间中最佳和最昂贵解码方法的蒸馏

通过在推论阶段使用高效解码算法并在训练阶段提炼质量收益，提出了 MBR（最小贝叶斯风险）微调和 QE（质量评估）微调方法，通过使用自我训练模型和外部 LLM（语言模型）作为教师模型，这些微调方法在自然语言生成（NLG）任务中达到了比人生成参考文献更好的结果，且能保持推论过程的高效性。

Sep, 2023

L1-Aware 多语种发音错误检测框架

本文介绍了一种新颖的多语言 MDD 结构 L1-MultiMDD，它具有 L1 感知的语音表示，并使用端到端语音编码器对输入信号及其对应的参考音素序列进行训练。实验结果表明，该 L1-MultiMDD 框架在目标语言（包括英语、阿拉伯语和普通话）的统一多语言音素识别任务中具有鲁棒性、有效性和泛化能力。

Sep, 2023

有效增强机制改进终端到终端模型的发音错误检测

本研究提出两种模型策略以加强 E2E MD 模型的区分能力 —— 输入增强和标签增强，经实验证明较传统的 DNN-HMM 声学模型效果更佳，可以用于 L2 学习者语音纠错。

Oct, 2021