LLaMA Pro：带块扩展的渐进 LLaMA

Jan, 2024

LLaMA Pro: Progressive LLaMA with Block Expansion

Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang...

TL;DR通过扩展 Transformer blocks 的方法，我们提出了一种新的 LLMs 后预训练方法，通过仅使用新的语料库调整扩展块，从而在不造成灾难性遗忘的情况下高效有效地改进模型的知识，实现在各种环境中高效运行的先进语言代理的开发。

Abstract

Humans generally acquire new skills without compromising the old; however, the opposite holds for large language models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method

large language models post-pretraining method transformer blocks llama pro-8.3b natural and programming languages

发现论文，激发创造

LLaMA 跨越英语：语言能力转移的实证研究

我们通过对 LLaMA 的实证研究发现，在使用不到 1% 的预训练数据时，可以实现与最先进的转移模型相媲美的性能，无论是在知识对齐还是响应质量方面，这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 LLMs。

Jan, 2024

超越表面：探测不同尺度和层级的 LLaMA

本文详细分析了大型语言模型（LLMs），重点关注自然语言处理中一种重要的开源基础模型 LLaMA。通过设计选择题任务来评估 LLaMA 在高阶任务（如推理和计算）中的内在理解能力。我们水平对比不同大小的模型，垂直评估不同层次的模型，并揭示了基于设计的评估任务的几个关键而不寻常的发现：（1）在水平分析中，扩大模型规模几乎无法自动带来额外的知识或计算能力，但可以增强推理能力，特别是在数学问题解决方面，并有助于减少幻象，但只有超过一定规模阈值才能实现；（2）在垂直分析中，LLaMA 的较低层次缺乏实质性的算术和事实知识，展示了逻辑思维、多语言和认知能力，而顶层具有最大的计算能力和现实世界的知识。

Dec, 2023

LLaMA：开放高效的基础语言模型

介绍了 LLaMA，包含 7B 至 65B 个参数的基础语言模型，使用公开可用的数据集训练，其中 LLaMA-13B 在大多数基准测试中优于 GPT-3（175B），LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。

Feb, 2023

大型语言模型程序

通过使用嵌入式算法来扩展预训练语言模型的能力，作者提出了一种证据支持的问答方法来展示这种方法的优势，相比于传统的 fine-tuning 方法，该方法获得了 6.4％的改进。

May, 2023

增强大型语言模型的翻译能力的新范式

本文介绍了一项关于增强大型语言模型（LLMs）在机器翻译（MT）任务中翻译能力的研究，提出了一个包括三个阶段的新范 Paradigm，通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练，以及利用和源语言一致的指导来进行监督微调。实验结果表明，我们的方法在翻译能力方面取得了显著的改进，超过了以前的工作，并在参数数量较小的情况下实现了优越的性能。

Mar, 2024

大型语言模型作为数据预处理器

此研究拓展了大型语言模型（LLMs）的应用，探索了它们在数据预处理中的潜力，包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架，用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。

Aug, 2023

机器翻译的范式转变：提升大型语言模型的翻译性能

通过提出一种新的微调方法，我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA，该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升，并为机器翻译领域的新的训练范式奠定了基础。

Sep, 2023

LLaMAntino: LLaMA 2 模型在意大利语文本生成中的有效应用

通过采用开放科学方法，研究探索了各种调整方法，以确保在原始模型数据集中不常见的意大利语适用于许多任务的高质量意大利语生成模型，为意大利语的语言适应策略贡献了 LLaMAntino 意大利语 LLM 家族的创新。

Dec, 2023

SambaLingo: 教授大型语言模型新语言

我们详细调查了将 LLMs 适应到新语言的过程，包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题，我们的实验覆盖了 9 种语言和 2 个参数规模，并与先前的基准模型进行比较，我们的模型表现优于所有先前已发表的基准模型。

Apr, 2024

通过组合拓展能力的 LLM 增强 LLMs

通过提出 CALM，即 Composition to Augment Language Models，我们研究了现有基础模型与特定模型的有效和实用组合，以赋予其新的能力。CALM 通过引入模型之间的交叉关注来组合它们的表示，并实现新的功能。在实验证明，将 PaLM2-S 与在资源稀缺语言上训练的较小模型相结合，可以在英语翻译和低资源语言的算术推理等任务中带来最高 13％的绝对改进；同样，当 PaLM2-S 与特定于代码的模型相结合时，在代码生成和解释任务上与完全微调的模型相比，性能提升了 40％。

Jan, 2024