面向现实世界的流式语音转换翻译
本篇研究关注英语 / 西班牙语对话中出现的代码转换,探讨在语音翻译任务中采用级联和端到端、单向和双向等不同架构的模型表现,得出双向端到端模型表现良好的结论。
Apr, 2022
本文研究提出一种简单而有效的数据增强方法,以在缺乏大量语料库的情况下训练多语言系统,进而提高 Code-Switching 语音的自动识别水平。通过将不同源语言的音频和相应标签连结在一起训练神经网络端到端 (E2E) 模型,实现在跨句子语言转换方面的提高。
Oct, 2022
我们提出了一种语言无关的端到端语音翻译模型(LAST),并提出了一种数据增强策略来提高代码切换性能。通过使用此模型,我们可以在处理多种语言混合的自然语音时,无需使用语言特定的语音识别和翻译组件,并显著减少延迟和错误率。
Oct, 2022
本研究的重点在于 Spanglish,提出了两种数据增强方法解决 CS 样本不足问题,结合少样本的情况,使零样本和全数据的准确度差距缩小了三分之二。
Jan, 2021
本文提出了一种利用大型语言模型和自动语音识别所生成的假设列表来解决语码转换的问题的方法,通过低秩适配器实现假设到转录的映射,并且实验证明该方法显著提高了语码转换自动语音识别的准确性,并且大型语言模型在数据效率方面表现出色,为低资源语言中语码转换自动语音识别的数据稀缺问题提供了潜在解决方案。
Oct, 2023
该研究介绍了 ASRU 2019 普通话 - 英语代码转换语音识别挑战赛,旨在提高普通话 - 英语代码转换情况下的 ASR 性能。参与者可以使用 500 小时标准普通话语音数据和 240 小时普通话 - 英语混合语音数据。本文总结了三个跟踪中的结果以及系统性能,并讨论了模型训练和方法比较的其他细节。
Jul, 2020
通过建立代码切换语料库的应用,我们研究了代码切换语言识别,考虑到多种语言和较简单的模型架构以实现更快速推理。我们将任务重新定义为句子级多标签标注问题,以使其更易处理,并提出反映所需性能的度量指标。我们通过实证实现表明当前的方法都不足够,并在这一领域提供未来工作的建议。
Feb, 2024
本文基于随机词汇替换和等价约束,利用对齐翻译对生成随机合法的混合语言内容进行零样本学习,以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题,实验结果显示,所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER,而采用等价约束的人类评估表明,80% 以上的内容质量足够。
Jan, 2022
本研究使用基于 DNN 的混合和 Transformer 的端到端模型构建自动语音识别系统并通过构建系统集成方法来提高识别率,结果表明两种模型相互补充且识别性能都不错。
Aug, 2021
研究提出了一种基于 ELMo 模型和位置感知的关注机制的代码切换模型:CS-ELMo,它通过迁移学习将英语知识转移到不同的代码切换语言对(如尼泊尔语 - 英语,西班牙语 - 英语和印地语 - 英语),并在 NER 和 POS 标记等关键任务上显著优于其他模型。
Sep, 2019