SUTRA：可扩展的多语言语言模型架构

May, 2024

SUTRA：可扩展的多语言语言模型架构

SUTRA: Scalable Multilingual Language Model Architecture

Abhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee...

TL;DR通过引入 SUTRA，一种能够理解、推理和生成超过 50 种语言文本的多语言大型语言模型架构，本文展示了其在多语言任务上超越 GPT-3.5 和 Llama2 等现有模型 20-30% 的结果，并对其未来在多语言人工智能领域的广泛影响进行了探讨。

Abstract

In this paper, we introduce sutra, multilingual large language model architecture capable of understanding, reasoning, and generating text in over 50 languages. →

sutra multilingual large language model conceptual understanding mmlu benchmarks multilingual ai

发现论文，激发创造

大型语言模型在扩展口语理解系统到新语言方面的应用

介绍了一种使用大型语言模型进行机器翻译的流水线，用于扩展语音助手系统的口语理解模型，提高了多语言场景和设备本地场景下的整体准确率。

Apr, 2024

UniverSLU：适用于多样化分类和序列生成任务的通用口语理解单网络

通过利用大型语言模型与多任务能力展示有希望的结果，我们构建了一个名为 UniverSLU 的单一多任务学习模型，它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时，我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示，并测试了该模型对新的释意表达的泛化能力。

Oct, 2023

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

多语言同声传译

研究了一种在会议或会谈中进行同时语音翻译的应用程序，并探讨了使用在线口语翻译模型建立在线口语翻译系统的一般方法以及针对这种方法采用不同的语言和体系结构的多语种模型与端对端模型的能力。所提出的方法通过对 TEDx 语料库的实验证明，相似的潜在优势。

Mar, 2022

SCALE：异构语言翻译引擎的协同合作

SCALE 是一个协作框架，将紧凑的专用翻译模型（STM）和通用大型语言模型（LLM）连接为一个统一的翻译引擎，通过将 STM 的翻译引入三元组的上下文演示中，SCALE 释放了 LLM 的完善和转向能力，从而减轻了 LLM 的语言偏见和 STM 的平行数据偏见，增强了 LLM 的专业性，而不牺牲通用性，并且在不进行昂贵的 LLM 微调的情况下促进了持续学习。我们的综合实验表明，在具有挑战性的低资源环境中，SCALE 在翻译方面显著优于少样本 LLMs（GPT-4）和专门化模型（NLLB）。此外，在 Xhosa 到英语的翻译中，SCALE 在没有调整 LLM 的情况下，通过一个仅包含 600M 参数的紧凑模型获得了 4 个 BLEURT 评分的稳定提高，并且在装备了这个紧凑模型时，与少样本 GPT-4 相比，在 COMET 得分上提高了 2.5 个分，BLEURT 得分上提高了 3.8 个分。SCALE 还可以有效地利用 LLMs 的现有语言偏见，通过使用以英语为中心的 STM 作为任何语言对之间翻译的枢纽，在八个翻译方向上优于少样本 GPT-4 的平均 6 个 COMET 分。此外，我们对 SCALE 的稳健性，翻译特性和延迟成本进行了深入分析，为未来研究探索 LLMs 和更专门化的任务特定模型之间的潜在协同效应提供了坚实的基础。

Sep, 2023

多对多口语翻译通过统一语音和文本表征学习与单元翻译

我们提出了一种方法，通过单一模型学习多语言语音和文本的统一表示，特别关注语音合成的目的。我们使用语音单元表示多语言语音音频，这是从自我监督语音模型编码的语音特征的量化表示。因此，我们可以将语音视为伪文本，并构建语音和文本的统一表示。然后，我们提出在多语言数据上通过单位到单位翻译 (UTUT) 目标训练编码器 - 解码器结构模型。通过使用源语言标记来确定编码器，使用目标语言标记来确定解码器，该模型被优化为将口语语言翻译为目标语言的翻译模型。因此，该模型可以建立口语语言的理解方式，并将其与不同语言相关联。单个经过预训练的 UTUT 模型可以用于各种多语言语音和文本相关任务，如语音到语音翻译 (STS)、多语言文本到语音合成 (TTS) 和文本到语音翻译 (TTST)。我们通过包含各种语言的综合实验验证了所提出方法的有效性。此外，我们展示了 UTUT 可以执行先前在文献中未探索的多对多语言 STS。样例可在此网址获取：https://URL

Aug, 2023

mHuBERT-147：一种紧凑的多语言 HuBERT 模型

mHuBERT-147 是第一个以 90K 小时的干净、开源数据训练的通用多语言 HuBERT 语音表示模型，通过基于 faiss 的聚类实现了 5.2 倍更快的标签分配速度，同时应用了新的多语言批量上采样策略，在只有 95M 个参数的情况下，在经过 3 次训练迭代后能够胜过在更多数据上训练的更大模型，并且在 ML-SUPERB 10 分钟 / 1 小时排行榜上分别排名第二和第一，在所有语种识别任务中具有最高的性能得分。在 ASR/LID 任务中，我们的模型始终超越 XLS-R（300M 个参数；436K 小时）并且与更大的 MMS（1B 个参数；491K 小时）具有很强的竞争力。我们的研究结果表明，mHuBERT-147 是一个有前景的多语言语音处理模型，提供了高性能和参数效率之间的前所未有的平衡。

Jun, 2024

SLM：填补语音与文本基础模型之间的差距

我们提出了一种联合语音与语言模型（SLM），它是一种多任务、多语种、双模态的模型，充分利用了预训练的语音和语言基础模型。SLM 通过将预训练的基础模型冻结，最大限度地保留它们的能力，并只训练一个只包含 1％（156M）基础模型参数的简单适配器，从而在传统任务（如语音识别和语音翻译）上取得了强大的性能，同时还具备了零 - shot 指导的新颖能力，能够完成包括上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。我们的方法表明，预训练的语音和语言模型之间的表征差距可能比人们预期的要小，并可以通过简单的适应机制来弥合。因此，SLM 不仅训练高效，而且继承了不同模态基础模型已经具备的强大能力。

Sep, 2023

LLaMAX：扩展 LLM 的语言翻译能力，超越 100 种语言的限制

经过广泛的多语言持续预训练，LLaMAX 在超过 100 种语言的翻译支持上实现了显著提高的性能，并在 Flores-101 基准测试上与专用翻译模型（M2M-100-12B）相当。

Jul, 2024