多语言转换器的潜在语言：拉马在英文中起作用吗？

Feb, 2024

多语言转换器的潜在语言：拉马在英文中起作用吗？

Do Llamas Work in English? On the Latent Language of Multilingual Transformers

Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West

TL;DR我们研究多语言语言模型在不平衡的以英语为主导的语料库上是否使用英语作为内部枢纽语言，以关键的重要性问题来理解语言模型的功能和语言偏见的起源。通过跟踪高维空间中的中间嵌入，我们发现了三个不同的阶段，这些阶段分别在 “输入空间”、“概念空间” 和 “输出空间” 中操作。关键的证据表明，抽象的 “概念空间” 更接近于英语而不是其他语言，这可能对多语言语言模型所持的偏见有重要影响。

Abstract

We ask whether multilingual language models trained on unbalanced, English-dominated corpora use English as an internal pivot language -- a question of key importance for understanding how language models function and the origins of →

multilingual language models linguistic bias language embeddings input space concept space

发现论文，激发创造

LLM 翻译中的重要语言特征和语言

基于大型语言模型（LLMs），本研究评估了 Llama2 在机器翻译方面的能力，并探讨了对训练数据中语言的依赖性。实验证明，7B 规模的 Llama2 模型对其已见过的所有语言都具有 10 BLEU 分数以上，但对未见过的语言不一定如此。我们的语言距离分析表明，句法相似性并非决定翻译质量的主要语言因素。有趣的是，我们发现在特定条件下，某些语言虽然训练数据明显少于英语，却与英语具有可比较的强相关性。本研究结果为目前 LLMs 的发展提供了新的视角，提出了以非英语语言为中心构建多语言模型的可能性。

Feb, 2024

翻译是唯一需要吗？关于使用大型语言模型解决多语言任务的研究

我们提倡更多的努力来开发强大的多语种语言模型，而不仅仅是以英语为中心的语言模型。

Mar, 2024

大语言模型的机器翻译：波斯语，英语和俄语方向的提示工程

通过研究生成式大型语言模型在机器翻译中的性能，我们发现多语言模型（如 PaLM）在人工翻译输出方面表现出类似人类的水平，能够根据样式指南和语言要求优化所需的翻译细微差别，并在处理和应用提示上表现出色。我们还针对流行的语言模型作为机器翻译工具的错误和限制进行了分类和提出了设计提示进行上下文学习的方法。通过改进评估指标的准确性和可靠性，我们的研究旨在促进生成式大型语言模型在机器翻译中的进步。

Jan, 2024

借助语言对齐将大型语言模型推广到非英语语境

通过建立语言间的语义对齐，提出通过使用非英语训练数据来增强预训练大型语言模型在非英语语言上的能力，并通过实验结果证明此方法在六种非英语语言上超过英语模型 42.50%，在汉语人文任务上超过英语模型 8.2%。同时发现，使用非英语文本作为翻译数据的目标端特别有效，且随着翻译任务数据规模的扩大，语言模型内部的语义对齐能够进一步加强。

Aug, 2023

翻译困境：大型语言模型在非英语内容分析中的应用

本文介绍了多语种语言模型的工作原理及其在语言分析和生成方面的能力和局限性，并提供了关于开展大型和多语种语言模型研究、开发和部署时的建议。

Jun, 2023

语言模型是通用嵌入器

大语言模型（LLM）革命中，嵌入是各种系统的关键组成部分。在本文中，我们迈出了迈向构建强大统一的嵌入模型的第一步，证明了多种语言（自然语言和编程语言）的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估，结果表明这是一条有希望的道路，可以应用于不同任务和语言。

Oct, 2023

理解和缓解 LLMs 中的语言混淆

LLMs have limitations in generating text in a user's desired language, and the Language Confusion Benchmark evaluates these failures, finding that Llama Instruct and Mistral models exhibit high degrees of language confusion, even the strongest models fail to consistently respond in the correct language.

Jun, 2024

通过跨语言知识传递向羊驼教授一门新语言

该研究探索了以成本效益的方法来适应新的低资源语言的事先训练的大型语言模型（LLMs），特别关注爱沙尼亚语。通过利用 Llama 2 模型，我们研究了将跨语言指令调整与额外的单语预训练相结合的影响。我们的结果表明，即使是相对较少的额外单语预训练再加上跨语言指令调整也能显著提高爱沙尼亚语的结果。此外，我们展示了从高质量的英文指令到爱沙尼亚语的跨语言知识转移，从而提高了常识推理和多轮对话能力。我们的最佳模型 extsc {Llammas} 是首个适用于爱沙尼亚语的开源指令跟随 LLM。此外，我们发布了爱沙尼亚的第一个通用任务指令数据集 Alpaca-est。这些贡献标志着发展适用于爱沙尼亚语的开源 LLMs 的初步进展。

Apr, 2024

通过翻译跟随示范提升面向指导训练大型语言模型的跨语言能力

通过在语言模型中建立语义对齐，该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型（It-LLMs）的方法，通过交叉语言指导和翻译指导演示，提高语义对齐，并在六种不同语言上的多语言问答基准测试中验证其方法的效果。

Aug, 2023

LLaMA 跨越英语：语言能力转移的实证研究

我们通过对 LLaMA 的实证研究发现，在使用不到 1% 的预训练数据时，可以实现与最先进的转移模型相媲美的性能，无论是在知识对齐还是响应质量方面，这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 LLMs。

Jan, 2024