无缝语言扩展:增强自监督模型中的多语言掌握能力
本文探讨了基于自监督学习 (SSL) 多语言模型的 ZMM-TTS 语言适应能力,研究发现了预训练语言和目标语言的语音学相似性、语言类别、微调数据集大小以及说话人数量对适应性的影响,并且发现相对于配对数据,仅音频数据在微调中并不总是最优选择。同时,研究还包括了说话人相似度、语言识别以及预测的 MOS。
Jun, 2024
多语言自监督学习中的 WavLabLM 预训练方法,通过使用更强大的技术实现较高性能,同时提高训练效率,为更多研究团体开放自监督学习,达到和 XLS-R 相当的性能,并用相对较少的数据和资源。
Sep, 2023
ML-SUPERB~2.0 是一个新的基准系统,用于评估预训练的自监督学习和监督语音模型在下游模型、微调设置和高效模型适应方法方面的性能,它发现了 ML-SUPERB 设置的性能改进,但性能取决于下游模型设计,并且在语言和数据集之间存在大的性能差异,表明需要更有针对性的方法来改进多语言 ASR 性能。
Jun, 2024
本文介绍了一种方法,可以将预先训练的自我监督(SSL)语音表示转移到多种语言中,使用适配器模块加快新语言任务的预训练,并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示,然后应用这些语言表示进行自动语音识别。
Jul, 2021
我们详细调查了将 LLMs 适应到新语言的过程,包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题,我们的实验覆盖了 9 种语言和 2 个参数规模,并与先前的基准模型进行比较,我们的模型表现优于所有先前已发表的基准模型。
Apr, 2024
本文提出了針對低資源語言進行神經機器翻譯系統適應的策略,基於大規模的多語言種子模型,通過將訓練擴展到相關低資源語言數據上,與高資源語言一起進行聯合訓練,實現了相似語言正則化策略,實驗表明在 4 個低資源語言環境下,BLEU 得分平均提高了 1.7。
Aug, 2018
本研究比较跨语言模型和单语言模型在日语自动语音识别上的表现,证明通过使用无标签日语数据,可实现与预先训练仅使用英语和 / 或多语言数据的跨语言模型相当的性能,并在多项自动语音识别任务上展示自监督学习在日语中的最新成果。
May, 2023
本文探讨了如何利用自监督学习的方法,在多语言机器翻译任务中实现参数的有利学习,其中采用了基于噪声消除的简单自监督任务,并将其与原有任务同时进行。通过这两种方法的结合,在 8 种和 15 种语言基准测试中分别比 MASS 等三种最先进的自监督学习方法提高了 11.3%和 3.7%的性能。
Feb, 2023
本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现:扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型,在质量分析中,我们的提出的 Bllossom 模型表现出优异的性能。
Mar, 2024
通过使用自我监督学习 (SSHR) 的分层表示,我们提出了一种新方法来优化多语种自动语音识别 (ASR)。我们分析了自我监督学习模型的不同层次,发现了与语言和内容相关的信息,从相关的中间层中提取与语言相关的帧,并通过自注意机制引导针对特定内容的提取。此外,我们使用提出的 Cross-CTC 在最后几层中引导模型获取更多与内容相关的信息。通过在 Common Voice 和 ML-SUPERB 这两个多语种数据集上的评估,实验结果表明我们的方法在我们所知的范围内达到了最先进的性能。
Sep, 2023