LIMA: 对齐更少即更好

May, 2023

LIMA: Less Is More for Alignment

Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun...

TL;DR通过 LIMA 的实验，本研究发现几乎所有大型语言模型的知识都是在预训练阶段中学习的，只需要有限的指导训练数据就足以教导模型产生高质量的输出。

Abstract

large language models are trained in two stages: (1) unsupervised pretraining from raw text, to learn general-purpose representations, and (2) large scale instruction tuning and reinforcement learning, to better

large language models unsupervised pretraining fine-tuning response formats generalization

发现论文，激发创造

记住过去，明确下一步怎么做

使用中等大小的大型语言模型（GPT-J 6B 参数），计划在科学世界中为模拟机器人实现 30 类目标，结果发现大语言模型在性能上优于强化学习，而且性能表现因任务而异。

Oct, 2023

大型语言模型程序

通过使用嵌入式算法来扩展预训练语言模型的能力，作者提出了一种证据支持的问答方法来展示这种方法的优势，相比于传统的 fine-tuning 方法，该方法获得了 6.4％的改进。

May, 2023

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

标签监督的 LLaMA 微调

本文介绍了一种基于标签监督的适应大语言模型（LLMs）的方法，通过从 LLMs 提取潜在表示并将其投影到标签空间计算交叉熵损失来微调模型。在各种下游任务中，该方法显著优于比其十倍规模的 LLMs 以及其他强大的基线模型如 BERT-Large 和 RoBERTa-Large。此外，通过从解码器中移除因果掩码，LS-unLLaMA 在命名实体识别（NER）中实现了最先进的性能。

Oct, 2023

ExpertPrompting：指导大规模语言模型成为卓越专家

本文介绍了一种使用 ExpertPrompting 技术的方法，通过 In-Context Learning 实现了定制化的指令，并将其用于训练基于 GPT-3.5 的 ExpertLLaMA 模型，实现了与 ChatGPT 相近的对话效果。

May, 2023

大型语言模型作为数据预处理器

此研究拓展了大型语言模型（LLMs）的应用，探索了它们在数据预处理中的潜力，包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架，用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。

Aug, 2023

从零开始预训练轻量级大型语言模型 MindLLM: 评估与领域应用

MindLLM 是一系列双语轻量级大型语言模型，通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验，并介绍了适用于较小模型的创新指令调整框架，同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。

Oct, 2023

对齐更长时间：一种简单但难以打败的教学微调基准

在对指令微调的研究中，最长指令的选择应该是任何研究的默认基线，因为经证实此方法能够在 LLMs 中提高性能，保持与对事实的知识进行测试的 OpenLLM 基准的竞争力。

Feb, 2024

语言模型是少样本学习的管家

使用预训练语言模型和简单的强化学习算法，无需大量专家示范即可在文本环境中操作并取得 51% 的成功率改进。

Apr, 2021