实现端到端的代码交替语音识别
本文基于等价约束理论提出了一种语言相关的注意机制,将单语数据转化为多语数据应用于端到端的自动语音识别中,获得了相对误差减少 17.12% 的优异性能。
Jan, 2022
本文研究提出一种简单而有效的数据增强方法,以在缺乏大量语料库的情况下训练多语言系统,进而提高 Code-Switching 语音的自动识别水平。通过将不同源语言的音频和相应标签连结在一起训练神经网络端到端 (E2E) 模型,实现在跨句子语言转换方面的提高。
Oct, 2022
该研究介绍了 ASRU 2019 普通话 - 英语代码转换语音识别挑战赛,旨在提高普通话 - 英语代码转换情况下的 ASR 性能。参与者可以使用 500 小时标准普通话语音数据和 240 小时普通话 - 英语混合语音数据。本文总结了三个跟踪中的结果以及系统性能,并讨论了模型训练和方法比较的其他细节。
Jul, 2020
该论文以声音识别为例,探讨行话中的语言混杂现象,并提出一种多任务学习的解决方案,并针对代码切换情境下的数据稀疏问题提出了词汇扩展方法,并在 SEAME 数据上进行了实验验证。
Nov, 2018
本研究使用基于 DNN 的混合和 Transformer 的端到端模型构建自动语音识别系统并通过构建系统集成方法来提高识别率,结果表明两种模型相互补充且识别性能都不错。
Aug, 2021
本研究评估了塞佩迪语和英语混合的自动语音识别系统,使用 Sepedi 代码切换语料库和 CTC 方法开发的端到端系统。该模型在 NCHLT Sepedi 测试语料库和 Sepedi 代码切换语料库的评估中产生了最低的 WER(41.9%),但在识别仅塞佩迪文本方面面临挑战。
Mar, 2024
本文利用深度双向语言模型如 BERT 和其他机器翻译模型提出了一种提取单语文本的方法,以及探索从 ASR 模型中提取混合文本的不同方法,并通过比较混杂度和其他不同指标(如 WER)的结果与标准的双语文本输出来说明模型的稳健性。
Jun, 2020
本文介绍了 ISCSLP 2022 中英文混合自动语音识别(CSASR)挑战赛,包括训练集、开发集和测试集等数据,以及参赛队伍的表现和技术。其中获胜队伍在测试集上取得了 16.70% 的混合误差率(MER)表现,并且相对基准系统取得了 9.8% 的 MER 绝对改善。
Oct, 2022
本篇研究关注英语 / 西班牙语对话中出现的代码转换,探讨在语音翻译任务中采用级联和端到端、单向和双向等不同架构的模型表现,得出双向端到端模型表现良好的结论。
Apr, 2022