面向文本的 Transformer 模型用于自动语音发音错误检测

MMAug, 2020

面向文本的 Transformer 模型用于自动语音发音错误检测

Text-Conditioned Transformer for Automatic Pronunciation Error Detection

Zhan Zhang, Yuehai Wang, Jianyi Yang

TL;DR本文提出了一种使用目标文本作为条件的 Transformer 模型，以在完全端到端的方式下输出考虑输入语音与目标文本关系的错误状态，提高了速度，并在 L2-Arctic 数据集上实验表明相对于 ASR-based 模型，提高了 8.4％的 $ F_1 $ 分数指标。

Abstract

automatic pronunciation error detection (APED) plays an important role in the domain of language learning. As for the previous ASR-based APED methods, the decoded results need to be aligned with the target text so that the errors can be found out. However, since the decoding process an

automatic pronunciation error detection asr-based methods transformer backbone end-to-end fashion l2-arctic dataset

发现论文，激发创造

基于混合换能器和注意力编码器 - 解码器模型的语音转文本任务

通过结合 Transducer 和基于 Attention 的编码器 - 解码器 (AED) 框架，我们提出了一种新的 TAED 框架，它既具有非单调序列到序列学习的优势，又保持了 Transducer 的流式属性，通过在同一个语音编码器上共享模型来实现。在实验中，TAED 在离线 ASR 和 ST 任务中优于 Transducer，在流式任务中，TAED 在 ASR 任务和一个 ST 方向上表现优足以超越 Transducer。

May, 2023

基于混合注意力的编码器 - 解码器模型用于高效语言模型适应

提出了一种新的混合注意力编码器 - 解码器（HAED）语音识别模型，通过分离声学模型和语言模型，以保留传统混合自动语音识别系统的模块化，实现了对传统基于文本的语言模型自适应技术的使用，从而在相对于纯 AED 模型在领域外文本数据进行语言模型自适应时实现了 21% 的词错误率（WER）改进，并且在一般测试集上只有微小的词错误率（WER）退化。

Sep, 2023

基于反向翻译的端到端自动语音识别数据增强

通过使用神经网络从大量未成对的文本中生成隐藏状态并重新训练 E2E-ASR 解码器，实现数据增强的自动语音识别方法，提高了性能和减少了未知词的数量。

Jul, 2018

针对端到端语音识别和理解优化语音和语言潜空间的对齐

本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间，实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。

Oct, 2021

RED-ACE: 使用置信度嵌入的 ASR 鲁棒性错误检测

该研究提出了一种基于自动语音识别 (ASR) 系统的置信得分，改善 ASR 误差检测 (AED) 模型的性能，并证明了这种置信得分的补充作用以及 ASR Confidence Embedding 的有效性和鲁棒性，并发布了一个包含有标记的 LibriSpeech 语料库的 ASR 输出的新型 AED 数据集。

Mar, 2022

PATCorrect：非自回归音素增强 Transformer 用于 ASR 误差校正

本文提出了一种基于 Transformer 模型和音素编码器的新型非自回归（NAR）纠错方法，该方法通过减少单词错误率（WER）来提高转录质量，并在不同的上游 ASR 系统中实现了鲁棒性能，特别是在 GPU 硬件上实现了与其他 NAR 模型相当的推断延迟，并且比自回归模型快 4.2-6.7 倍。

Feb, 2023

自动后编辑的实证研究

该研究针对自动后编辑（APE）中数据稀缺的情况，通过数据增强的方式来生成大规模人工语料库构建人工数据域，以提高模型性能，报告表明高质量的人工语料库与生成的训练数据可以改善模型性能，同时在不同 MT 系统中 APE 的难度不同，模型在语法和语义添加问题上的表现良好，但容易出现实体和语义省略错误。

Sep, 2022

零样本自动发音评估

提出基于 HuBERT 的零样本自动发音评估方法，使用遮罩模块破坏语音输入获取令牌序列并使用得分模块测量错误恢复的令牌数量，在 speechocean762 上得到了可比较于监督回归基线且优于非回归基线的表现，同时分析了遮罩策略对自动发音评估性能的影响。

May, 2023

自动后编辑高质量机器翻译中句法对称的重要性

本文探讨自动后编辑 (APE) 的问题，提出了一种基于对称自注意和语言学正则化的方法，旨在提高 APE 模型对目标语言的理解能力，并取得了实验结果的显著提升。

May, 2023

自动后编辑的复制学习

该研究提出了一种新的模拟自动后期编辑过程中的复制机制的方法，通过在源句子和系统输出之间交互学习来更好地识别翻译错误，并在 WMT 数据集上的实验中进行验证，表现优于以往最佳结果。

Nov, 2019