无缝语言扩展：增强自监督模型中的多语言掌握能力

Jun, 2024

无缝语言扩展：增强自监督模型中的多语言掌握能力

Seamless Language Expansion: Enhancing Multilingual Mastery in Self-Supervised Models

Jing Xu, Minglin Wu, Xixin Wu, Helen Meng

TL;DR我们提出了通过将 LoRA 整合到已有的自我监督模型中，实现新语言的自适应，并通过数据结合和重新聚类等保护策略来保持对已有和新语言的性能保持完整，实验证明该方法使 mHuBERT 应用于新语言（普通话）的 MOS 值增加 1.6，WER 相对值减少了 61.72%。

Abstract

Self-supervised (SSL) models have shown great performance in various downstream tasks. However, they are typically developed for limited languages, and may encounter new languages in real-world. Developing a SSL model for each new language is costly. Thus, it is vital to figure out how to efficiently adapt existed →

self-supervised models ssl models language adaptation lora preservation strategies

发现论文，激发创造

低资源情景下 TTS 系统的语言适应初探

本文探讨了基于自监督学习 (SSL) 多语言模型的 ZMM-TTS 语言适应能力，研究发现了预训练语言和目标语言的语音学相似性、语言类别、微调数据集大小以及说话人数量对适应性的影响，并且发现相对于配对数据，仅音频数据在微调中并不总是最优选择。同时，研究还包括了说话人相似度、语言识别以及预测的 MOS。

Jun, 2024

大规模多语种自我监督学习的联合预测与去噪

多语言自监督学习中的 WavLabLM 预训练方法，通过使用更强大的技术实现较高性能，同时提高训练效率，为更多研究团体开放自监督学习，达到和 XLS-R 相当的性能，并用相对较少的数据和资源。

Sep, 2023

ML-SUPERB 2.0：跨模型约束、语言和数据集进行多语言语音模型基准测试

ML-SUPERB~2.0 是一个新的基准系统，用于评估预训练的自监督学习和监督语音模型在下游模型、微调设置和高效模型适应方法方面的性能，它发现了 ML-SUPERB 设置的性能改进，但性能取决于下游模型设计，并且在语言和数据集之间存在大的性能差异，表明需要更有针对性的方法来改进多语言 ASR 性能。

Jun, 2024

基于适配器的预训练方法用于高效可扩展的自监督语音表征学习

本文介绍了一种方法，可以将预先训练的自我监督（SSL）语音表示转移到多种语言中，使用适配器模块加快新语言任务的预训练，并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示，然后应用这些语言表示进行自动语音识别。

Jul, 2021

SambaLingo: 教授大型语言模型新语言

我们详细调查了将 LLMs 适应到新语言的过程，包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题，我们的实验覆盖了 9 种语言和 2 个参数规模，并与先前的基准模型进行比较，我们的模型表现优于所有先前已发表的基准模型。

Apr, 2024

神经机器翻译快速适应新语言

本文提出了針對低資源語言進行神經機器翻譯系統適應的策略，基於大規模的多語言種子模型，通過將訓練擴展到相關低資源語言數據上，與高資源語言一起進行聯合訓練，實現了相似語言正則化策略，實驗表明在 4 個低資源語言環境下，BLEU 得分平均提高了 1.7。

Aug, 2018

探索日语自监督语音表征模型的语言依赖性

本研究比较跨语言模型和单语言模型在日语自动语音识别上的表现，证明通过使用无标签日语数据，可实现与预先训练仅使用英语和 / 或多语言数据的跨语言模型相当的性能，并在多项自动语音识别任务上展示自监督学习在日语中的最新成果。

May, 2023

具备语言意识的自监督学习多语言机器翻译

本文探讨了如何利用自监督学习的方法，在多语言机器翻译任务中实现参数的有利学习，其中采用了基于噪声消除的简单自监督任务，并将其与原有任务同时进行。通过这两种方法的结合，在 8 种和 15 种语言基准测试中分别比 MASS 等三种最先进的自监督学习方法提高了 11.3％和 3.7％的性能。

Feb, 2023

优化多语言大型语言模型的语言增强：以韩文为例的案例研究

本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现：扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型，在质量分析中，我们的提出的 Bllossom 模型表现出优异的性能。

Mar, 2024

SSHR：利用自监督层级表征进行多语言自动语音识别

通过使用自我监督学习 (SSHR) 的分层表示，我们提出了一种新方法来优化多语种自动语音识别 (ASR)。我们分析了自我监督学习模型的不同层次，发现了与语言和内容相关的信息，从相关的中间层中提取与语言相关的帧，并通过自注意机制引导针对特定内容的提取。此外，我们使用提出的 Cross-CTC 在最后几层中引导模型获取更多与内容相关的信息。通过在 Common Voice 和 ML-SUPERB 这两个多语种数据集上的评估，实验结果表明我们的方法在我们所知的范围内达到了最先进的性能。

Sep, 2023