探索构建语言特定的 LLM 的设计选择

Jun, 2024

探索构建语言特定的 LLM 的设计选择

Exploring Design Choices for Building Language-Specific LLMs

Atula Tejaswi, Nilesh Gupta, Eunsol Choi

TL;DR通过对已有大语言模型进行适应和扩展，我们研究了构建语言专属的大语言模型。我们通过系统实验探究基础模型选择、词汇扩展和持续微调等设计选择对适应后的大语言模型的效率（编码同样数量信息所需的词汇数）和最终任务性能的影响。我们发现，（1）适应前的初始性能并不总是最终性能的指示；（2）大多数研究的大语言模型可以通过简单的词汇扩展和持续微调来提高效率；（3）最佳的适应方法高度依赖于语言，简单的方法在各种实验设置中都表现良好。与适应多语言模型相比，适应以英语为中心的模型在资源稀缺语言上可以取得更好的结果。总之，我们的工作为通过适应现有大语言模型高效构建语言专属大语言模型奠定了基础。

Abstract

Despite rapid progress in large language models (LLMs), their performance on a vast majority of languages remain unsatisfactory. In this paper, we study building language-specific llms by adapting monolingual and

large language models language-specific llms adaptation vocabulary extension end task performance

发现论文，激发创造

跨语言词汇适应的实证研究：高效生成式 LLM 推理

对五种生成式大型语言模型进行了实证研究，探讨了跨语言词汇适应方法对提高模型推理效率的有效性，发现跨语言词汇适应可大幅提升模型推理速度高达 271.5%，同时适应更平衡的多语种数据可以使下游性能接近原始模型。

Feb, 2024

高效地将预先训练好的语言模型适应新语言

本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中，避免灾难性遗忘和标记器效率低下的问题，并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明，我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面，能够达到比开源模型更好的性能，同时对英语的回归影响很小。

Nov, 2023

适用于特定文化背景的大型英语语言模型的方法论

针对大型语言模型在特定文化背景下应用的挑战，本文提出了一种快速自适应方法，利用特定文化知识和安全价值数据进行指导调整。实验结果表明，适应后的语言模型在领域特定知识和适应性方面显著提升，同时保持了其原有的专业优势。

Jun, 2024

SambaLingo: 教授大型语言模型新语言

我们详细调查了将 LLMs 适应到新语言的过程，包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题，我们的实验覆盖了 9 种语言和 2 个参数规模，并与先前的基准模型进行比较，我们的模型表现优于所有先前已发表的基准模型。

Apr, 2024

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024

针对低资源语言家族的定向多语言适应

对于低资源语言，通过针对性的多语言训练，依照乌拉尔语系为案例进行调整，通过实验证明适应性的词汇大小对于低资源语言的影响相对较小，低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微，从而为特定语境中的语言适应性提供了新的最佳实践。

May, 2024

多语种是多语种 LLM

通过对 101 种语言进行全面分析，评估了大型语言模型（LLMs）的多语言能力，并将具有相似特征的语言分类为四个不同的象限，为调整这些语言提供可操作的指导。通过深入研究每个象限，阐明了其分类背后的理由，并提出了改进 LLMs 的多语言性能的具体属性。实验结果表明，现有的 LLMs 具有超出预期的多语言能力，并且通过关注每个象限中存在的不同属性，我们可以显著提高 LLMs 的多语言表现。

Nov, 2023

适应大型语言模型的文档级机器翻译

探索大型语言模型在文档级机器翻译中的适应过程及性能，研究了提示策略及精细调优方法对翻译结果的影响，发现部分专用模型的翻译性能甚至超过 GPT-4，但仍面临着偏离翻译问题的挑战，同时进行了深入分析，包括翻译错误、平行文件的规模关系、领域外泛化和零翻译跨语言转移等，为未来文档级机器翻译方面的研究提供了基础。

Jan, 2024

低资源跨语言迁移的词汇扩展

通过在不同角度研究目标词汇规模、初始化方法以及可用于适应的目标数据量，我们在语料资源有限的环境中发现，基于简单启发式的词向量初始化方法更高效、更稳定，能够在目标词汇规模和适应数据变化时胜过常用的随机初始化和更复杂依赖外部数据和模型的最先进方法。

Jun, 2024

adaptMLLM: 在低资源语言上使用集成 LLM 沙盒的多语言语言模型的微调

通过开发 adaptMLLM，我们针对机器翻译开发了一个开放源代码应用程序，旨在解决多语言语言模型在低资源语言中开发高质量机器翻译输出方面的问题，并提供易于定制的界面以及各种模型评估指标和在应用程序中直接部署模型作为翻译服务的能力。

Mar, 2024