Bailong：基于 QLoRA 和 Zip-tie 嵌入的双语迁移学习

Apr, 2024

Bailong：基于 QLoRA 和 Zip-tie 嵌入的双语迁移学习

Bailong: Bilingual Transfer Learning based on QLoRA and Zip-tie Embedding

Lung-Chuan Chen, Zong-Ru Li

TL;DR我们结合参数高效调整和高级嵌入初始化技术，通过对英语主导的开源大语言模型进行二次预训练，以提高其在繁体中文上的表现，并进一步引入评估平台来检验模型与人类偏好和指令遵循能力的一致性。我们的评估结果显示，我们的模型在多轮对话任务中相比其他类似的开源模型表现出竞争性水平，并提供了 Bailong-instruct 7B 与 Bailong-bench 供社区使用。

Abstract

large language models (LLMs) have demonstrated exceptional performance in various NLP applications. However, the majority of existing open-source LLMs are pre-trained primarily on English data and little part of other languages. This deficiency in →

large language models multilingual training data parameter-efficient tuning cross-lingual transfer benchmark datasets

发现论文，激发创造

BayLing：面向大型语言模型的交互翻译，通过跨语言对齐和指令跟踪进行桥接

这篇文章提出了一种新的方法，通过互动翻译任务将英语的语言生成和指令遵循能力转移到其他语言，从而构建面向非英语语言的语言模型 BayLing。实验结果表明 BayLing 在词语翻译和多轮指令跟进等任务上都表现出了优异的性能。

Jun, 2023

通过翻译跟随示范提升面向指导训练大型语言模型的跨语言能力

通过在语言模型中建立语义对齐，该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型（It-LLMs）的方法，通过交叉语言指导和翻译指导演示，提高语义对齐，并在六种不同语言上的多语言问答基准测试中验证其方法的效果。

Aug, 2023

探究多语言预训练语言模型的迁移学习 —— 以中文自然语言推理为例

研究多语言 transformers 在英文和中文自然语言推断方面的跨语言转移能力，并基于 17 个中文挑战任务对其性能进行测试。研究发现，跨语言模型在训练时使用英语和高质量的单语 NLI 数据（OCNLI）通常表现最好，而自动翻译资源则会影响其性能。

Jun, 2021

OpenBA：一个从零开始的开源 15B 双向语言模型预训练

大型语言模型（LLM）在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA，这是一个开源的 150 亿双语不对称 seq2seq 模型，为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA，并采用三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B 令牌时也能达到与 LLaMA-70B 在 BELEBELE 基准上、BLOOM-176B 在 MMLU 基准上、GLM-130B 在 C-Eval（难）基准上相媲美的性能。本报告提供了有关类似模型的预训练的主要细节，包括预训练数据处理、双语 Flan 数据收集、启发我们模型架构设计的经验观察、不同阶段的训练目标以及其他增强技术。我们重构了代码以符合 Huggingface Transformers Library 的设计原则，使其对开发者更加方便使用，并在 https URL（此处提供链接）上发布了不同训练阶段的检查点。有关我们项目的更多详细信息，请访问 https URL（此处提供链接）。

Sep, 2023

借助语言对齐将大型语言模型推广到非英语语境

通过建立语言间的语义对齐，提出通过使用非英语训练数据来增强预训练大型语言模型在非英语语言上的能力，并通过实验结果证明此方法在六种非英语语言上超过英语模型 42.50%，在汉语人文任务上超过英语模型 8.2%。同时发现，使用非英语文本作为翻译数据的目标端特别有效，且随着翻译任务数据规模的扩大，语言模型内部的语义对齐能够进一步加强。

Aug, 2023

通过跨语言知识传递向羊驼教授一门新语言

该研究探索了以成本效益的方法来适应新的低资源语言的事先训练的大型语言模型（LLMs），特别关注爱沙尼亚语。通过利用 Llama 2 模型，我们研究了将跨语言指令调整与额外的单语预训练相结合的影响。我们的结果表明，即使是相对较少的额外单语预训练再加上跨语言指令调整也能显著提高爱沙尼亚语的结果。此外，我们展示了从高质量的英文指令到爱沙尼亚语的跨语言知识转移，从而提高了常识推理和多轮对话能力。我们的最佳模型 extsc {Llammas} 是首个适用于爱沙尼亚语的开源指令跟随 LLM。此外，我们发布了爱沙尼亚的第一个通用任务指令数据集 Alpaca-est。这些贡献标志着发展适用于爱沙尼亚语的开源 LLMs 的初步进展。

Apr, 2024

LLaMA 跨越英语：语言能力转移的实证研究

我们通过对 LLaMA 的实证研究发现，在使用不到 1% 的预训练数据时，可以实现与最先进的转移模型相媲美的性能，无论是在知识对齐还是响应质量方面，这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 LLMs。

Jan, 2024

探索 LLM 训练中跨语言对齐的出现

多语言大型语言模型通过隐式对齐语言和神经元重叠达到零 - shot 跨语言转移性能，本研究使用内在探测技术通过检查点观察到神经元重叠和下游性能之间的高相关性，同时探测到预训练过程中隐式对齐和多语言能力的退化现象，为多语言预训练动态提供了新的见解。

Jun, 2024

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

SambaLingo: 教授大型语言模型新语言

我们详细调查了将 LLMs 适应到新语言的过程，包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题，我们的实验覆盖了 9 种语言和 2 个参数规模，并与先前的基准模型进行比较，我们的模型表现优于所有先前已发表的基准模型。

Apr, 2024