通过概括研究超调整的有效性

Feb, 2024

Investigating the Effectiveness of HyperTuning via Gisting

Jason Phang

TL;DR基于 Gisting 的超网络是经济且易于实现的方法，能够使用改进的注意力掩码将信息压缩为更少的令牌表示形式。在实验中展示了 HyperLlama 模型可以将少样本示例中的信息有效地压缩为软前缀，并且这些软前缀可以作为更好的初始化方式进行进一步的前缀调优。然而，与完全关注少样本内文示例的多任务微调语言模型相比，它们的经验性能表现参差不齐。

Abstract

gisting (Mu et al., 2023) is a simple method for training models to compress information into fewer token representations using a modified attention mask, and can serve as an economical approach to training transformer<

gisting hypernetworks transformer few-shot examples prefix tuning

发现论文，激发创造

学习使用 Gist Tokens 压缩提示

本文提出一种名为 gisting 的方法，使得语言模型可以在不受到提示限制的情况下进行任务处理，通过在指令微调中训练 “要旨” 模型，并仅仅在解码过程中使用它们，可以大大压缩提示量，使得模型可以在保持输出质量的前提下获得更高的计算效率和存储效率。

Apr, 2023

GistScore：使用 Gist 瓶颈学习更好的上下文示例选择表示

使用 GistScore 度量示例 Gisting 的新方法，基于 Fine-tuned 模型实现最新的 in-context learning（ICL），在 21 个不同数据集上，可以获得超过 20% 绝对平均增益，且速度比之前最佳的非训练法提高了数千倍。

Nov, 2023

针对特定场景的 LLaMa 多任务指令调节：一项关于写作辅助的初步研究

本文研究了使用指令驱动数据 fine-tune 的 LLMa 模型在写作场景下的性能，结果表明持续地使用写作数据对 LLMa 进行微调，可以显著提高它在写作任务上的表现，并为未来 LlMa 在特定场景中的微调提供了洞见。

May, 2023

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

超调：大型语言模型的自适应调节方法，无需借助反向传播算法

本文提出了 HyperTuning 方法用于模型适应，可以生成特定任务的参数并在大量多样化语言任务上进行多任务微调。通过在 P3、MetaICL 和 Super-NaturalInstructions 数据集上的表现，证明该方法可以有效地为新任务生成参数，并改善性能。

Nov, 2022

AgentTuning：为 LLMs 赋予通用的代理能力

AgentTuning 是一种简单且通用的方法，可以提高大型语言模型在代理任务方面的能力，同时保持其一般能力。该方法通过使用 AgentInstruct 与通用领域的开源指令相结合的混合指令调整策略对 Llama 2 系列进行了指令调整，从而得到 AgentLM。评估结果显示，AgentTuning 能够提升语言模型的代理能力而不影响其一般能力，AgentLM-70B 在未知代理任务上与 GPT-3.5-turbo 相媲美，展现了广义的代理能力。我们在指定的网址开源了 AgentInstruct 和 AgentLM-7B、13B 和 70B 模型，为代理任务提供了开源和强大的替代方案。

Oct, 2023

通过启用中间层解码加速 LLM 推理

我们的研究工作通过指令调整大型语言模型的推理过程，提升其效率同时保持生成质量，这是推广应用这类模型的重要一步。

Oct, 2023

AlpaGasus: 用更少的数据训练更好的羊驼

本研究提出了一种数据选取策略，利用一个强大的大型语言模型（ChatGPT）自动地识别和删除低质量的数据，从而过滤出高质量的数据并训练指令跟随模型。通过使用该策略，作者利用仅有的 9k 条高质量数据训练出了一个新的大型语言模型 AlpaGasus，相比于 Alpaca 的 52k 数据集，在多个测试集上获得了更好的表现。同时，AlpaGasus 提供了 5.7 倍更快的训练速度，训练时间从 Alpaca 的 80 分钟减少到了 14 分钟。该方法展示了一种数据中心的指令跟随模型训练范式，可广泛应用于指令调整数据，提高训练效率和准确率。

Jul, 2023

生成式大型语言模型是全能文本分析引擎：文本对文本学习是您所需的全部

通过基于生成型大型语言模型（LLM）的通用文本到文本学习架构和提示调优，解决主要的临床自然语言处理（NLP）任务，并提供了最新的性能。

Dec, 2023