通过组合拓展能力的 LLM 增强 LLMs

Jan, 2024

LLM Augmented LLMs: Expanding Capabilities through Composition

Rachit Bansal, Bidisha Samanta, Siddharth Dalmia, Nitish Gupta, Shikhar Vashishth...

TL;DR通过提出 CALM，即 Composition to Augment Language Models，我们研究了现有基础模型与特定模型的有效和实用组合，以赋予其新的能力。CALM 通过引入模型之间的交叉关注来组合它们的表示，并实现新的功能。在实验证明，将 PaLM2-S 与在资源稀缺语言上训练的较小模型相结合，可以在英语翻译和低资源语言的算术推理等任务中带来最高 13％的绝对改进；同样，当 PaLM2-S 与特定于代码的模型相结合时，在代码生成和解释任务上与完全微调的模型相比，性能提升了 40％。

Abstract

Foundational models with billions of parameters which have been trained on large corpora of data have demonstrated non-trivial skills in a variety of domains. However, due to their monolithic structure, it is challenging and expensive to augment them or impart new skills. On the other hand, due to their adaptation abilities, several new instances of these mo

foundation models composition language models augmentation new capabilities

发现论文，激发创造

小型 LLM 是弱工具学习者：多 LLM 代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

将 LLM 的分解能力提取为简洁的语言模型

通过离线强化学习将大型语言模型（LLM）的分解能力融入紧凑模型，我们利用 LLM 能力的进步提供反馈并生成专门的任务特定数据集来训练紧凑模型，该研究的主要贡献是开发了一个 AI 生成的数据集和建立了基线，强调了紧凑模型在复制复杂问题解决能力方面的潜力。

Feb, 2024

基于能力的语言模型分析

本文提出了 CALM 实验框架并使用梯度基于对抗攻击的方法对语言模型的内部表示进行破坏性实验，以评估其在执行特定任务时使用每个表示的能力。在对 BERT 等 LM 执行对应关系提示任务的案例研究中，发现 LM 在执行每个任务时所利用的表示高度交织在一起，但可以在它们最常被利用的任务方面进行有意义的解释。

Mar, 2023

为文本数据增强赋能大型语言模型

提出了一种自动生成大量数据增强指令并选择最适合任务的指令的新解决方案，从而赋予 LLM 创建高质量增强数据用于不同的下游任务的能力。在 26 个少样本学习任务中，该方法一致生成比非 LLM 和基于 LLM 的数据增强方法质量更好的增强数据，表现最佳。

Apr, 2024

LLM2LLM：利用新的迭代数据增强提升 LLM 模型

使用以预训练大型语言模型（LLM）为基础的 LLM2LLM 方法，通过数据增强和迭代，显著提高 LLM 在低数据情况下的性能，优于传统的微调和其他数据增强方法，减少了对数据策划的依赖，为更可扩展和高性能的 LLM 解决方案铺平了道路。

Mar, 2024

从零开始预训练轻量级大型语言模型 MindLLM: 评估与领域应用

MindLLM 是一系列双语轻量级大型语言模型，通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验，并介绍了适用于较小模型的创新指令调整框架，同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。

Oct, 2023

CALM: 连续适应学习的语言建模

该研究论文提出了 CALM 技术，通过对大型语言表示模型进行连续自适应学习，使其跨领域保留知识，并在生物医学和临床领域的实验中展示了任务特定模型与 CALM 模型性能差距的减小。

Apr, 2020

律师 LLaMA 技术报告

本文研究了如何在持续训练过程中注入领域知识以及如何设计正确的监督微调任务来帮助模型解决实际问题，在加入检索模块并提取相关文献的情况下，我们的模型可以更可靠地生成答案。

May, 2023

TALM: 工具增强型语言模型

本文介绍了一种基于迭代 “自我对弈” 技术的文本增强语言模型方法，使用不可微分的工具扩充语言模型功能，成功在知识丰富型问答和简单工具所需的数学任务中具有很强的表现力，优于非增强型语言模型，在 QA 和数学任务的超越分布推理方面更是取得了成功，证明了工具增强型语言模型是一种非常有前景的方法，可以使语言模型在不依赖于模型（尺度）的基础上具备更多的能力。

May, 2022