减少端到端语种混淆的自动语音识别

Jan, 2022

减少端到端语种混淆的自动语音识别

Reducing language context confusion for end-to-end code-switching automatic speech recognition

Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, Yu Ting Yeung...

TL;DR本文基于等价约束理论提出了一种语言相关的注意机制，将单语数据转化为多语数据应用于端到端的自动语音识别中，获得了相对误差减少 17.12% 的优异性能。

Abstract

code-switching deals with alternative languages in communication process. Training end-to-end (E2E) automatic speech recognition (ASR) systems for →

code-switching automatic speech recognition language-related attention mechanism equivalence constraint theory monolingual data

发现论文，激发创造

端到端语音识别中的语言无关代码切换

本文研究提出一种简单而有效的数据增强方法，以在缺乏大量语料库的情况下训练多语言系统，进而提高 Code-Switching 语音的自动识别水平。通过将不同源语言的音频和相应标签连结在一起训练神经网络端到端 (E2E) 模型，实现在跨句子语言转换方面的提高。

Oct, 2022

实现端到端的代码交替语音识别

本文通过混合 CTC-Attention 模型，不同建模单元，语言识别以及不同解码策略等对汉英混合口语识别任务进行了研究，并在 SEAME 语音库上实现了 34.24% 的混淆误差率。

Oct, 2018

低资源语言对的端到端代码开关 ASR

本文研究了一种面向代码交错语音的端到端语音识别技术，并利用神经网络语言模型和循环神经网络提高低资源情况下的识别性能。

Sep, 2019

汉英混合口语端到端语音识别的解决方案

该论文以声音识别为例，探讨行话中的语言混杂现象，并提出一种多任务学习的解决方案，并针对代码切换情境下的数据稀疏问题提出了词汇扩展方法，并在 SEAME 数据上进行了实验验证。

Nov, 2018

利用编码解耦的有效混合专家方法进行代码切换语音识别

通过引入一种新的解缠损失函数，本研究专注于改进端到端自动语音识别（ASR）的声学编码器，以解决代码切换现象带来的挑战，并通过实验验证了该方法的优越性。

Feb, 2024

端到端的混合语言模型用于自动语音识别

本文利用深度双向语言模型如 BERT 和其他机器翻译模型提出了一种提取单语文本的方法，以及探索从 ASR 模型中提取混合文本的不同方法，并通过比较混杂度和其他不同指标（如 WER）的结果与标准的双语文本输出来说明模型的稳健性。

Jun, 2020

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

基于类语言模型和令牌传递解码器的端到端语境语音识别

本文针对上下文语音识别难以适应 E2E 自动语音识别的问题，提出了使用基于类别的语言模型及高效微调令牌传递解码器来提高性能。实验表明，该方法在不改变解码超参数的情况下，有效降低了上下文语音识别的字词错误率，并不影响普通语音识别的表现。

Dec, 2018

用合成的混合语文本生成优化双语神经转换器

本研究探讨了如何针对混杂语音优化基于神经传递器的双语自动语音识别系统，发现半监督训练和合成的混合开关数据可以改善这一系统的性能。同时，我们分析了每个神经传递器编码器对混合开关性能的影响，并在 ASCEND 数据集上评估了我们的英语 / 普通话系统，其混合错误率为 25％，较文献节省 2.1％，同时保持好的单语测试集准确性。

Oct, 2022

阿拉伯语 - 英语代码切换语音识别的文本数据增强

本文基于随机词汇替换和等价约束，利用对齐翻译对生成随机合法的混合语言内容进行零样本学习，以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题，实验结果显示，所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER，而采用等价约束的人类评估表明，80% 以上的内容质量足够。

Jan, 2022