针对特定场景的 LLaMa 多任务指令调节：一项关于写作辅助的初步研究

May, 2023

针对特定场景的 LLaMa 多任务指令调节：一项关于写作辅助的初步研究

Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A Preliminary Study on Writing Assistance

Yue Zhang, Leyang Cui, Deng Cai, Xinting Huang, Tao Fang...

TL;DR本文研究了使用指令驱动数据 fine-tune 的 LLMa 模型在写作场景下的性能，结果表明持续地使用写作数据对 LLMa 进行微调，可以显著提高它在写作任务上的表现，并为未来 LlMa 在特定场景中的微调提供了洞见。

Abstract

chatgpt and gpt-4 have attracted substantial interest from both academic and industrial circles, owing to their remarkable few-shot (or even zero-shot) ability to handle various tasks. Recent work shows that, aft

chatgpt gpt-4 llm llama writing-assistance

发现论文，激发创造

使用 GPT-4 进行指令调优

本文利用 GPT-4 生成的 instruction-following 数据进行大型语言模型 finetuning，发现相较于之前最先进模型生成的数据，52K 的英文和中文 instruction-following 数据可以显着提高新任务的零 - shot 性能。同时我们公开了 GPT-4 生成的数据以及我们的代码库。

Apr, 2023

应用于临床和生物医学任务的指导微调大型语言模型的零样本和少样本研究

评估四个最先进的面向指令的大型语言模型（ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca）在 13 项真实世界的临床和生物医学自然语言处理（NLP）任务，如命名实体识别（NER）、问答（QA）、关系抽取（RE）等方面的表现。总体结果表明，评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能，尤其在 QA 任务中表现出色，即使它们之前从未见过这些任务的示例。然而，我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型（如 PubMedBERT）所能达到的水平。最后，我们注意到没有一个语言模型在所有研究任务中都胜过其他模型，某些模型在特定任务中更适合。

Jul, 2023

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

标签监督的 LLaMA 微调

本文介绍了一种基于标签监督的适应大语言模型（LLMs）的方法，通过从 LLMs 提取潜在表示并将其投影到标签空间计算交叉熵损失来微调模型。在各种下游任务中，该方法显著优于比其十倍规模的 LLMs 以及其他强大的基线模型如 BERT-Large 和 RoBERTa-Large。此外，通过从解码器中移除因果掩码，LS-unLLaMA 在命名实体识别（NER）中实现了最先进的性能。

Oct, 2023

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

LLaMA-E：用多方面指导强化电子商务撰写

提出了针对电子商务撰写任务的统一和定制的 LLaMA-E 语言模型，包括广告生成、查询增强的产品标题重写、产品分类、购买意向推测和常见问答等任务，并将 GPT-3.5 作为教师模型，通过扩展种子指令形成 LLaMA-E 模型的训练集，在定量和定性评估中取得了最先进的结果，并在零样本场景中展现出优势。

Aug, 2023

AgentTuning：为 LLMs 赋予通用的代理能力

AgentTuning 是一种简单且通用的方法，可以提高大型语言模型在代理任务方面的能力，同时保持其一般能力。该方法通过使用 AgentInstruct 与通用领域的开源指令相结合的混合指令调整策略对 Llama 2 系列进行了指令调整，从而得到 AgentLM。评估结果显示，AgentTuning 能够提升语言模型的代理能力而不影响其一般能力，AgentLM-70B 在未知代理任务上与 GPT-3.5-turbo 相媲美，展现了广义的代理能力。我们在指定的网址开源了 AgentInstruct 和 AgentLM-7B、13B 和 70B 模型，为代理任务提供了开源和强大的替代方案。

Oct, 2023

为越南聊天机器人高效微调大型语言模型

通过利用开源项目中的大规模指令遵循数据集，我们采用参数高效调整方法对两个开放许可的大语言模型 (Bloomz 和 GPTJ) 进行了调整，使其在越南语上取得了显著的性能提升，并通过自动评分机制证明我们的方法相对于原始模型在评估任务上的效果提升了约 20-30%。

Sep, 2023

通过调整和多分支推理增强低参数 LLMs 的普通代理能力

通过构建特定于代理的数据和有监督微调模型，以及设计有效激活大型语言模型推理能力的提示方法，我们提出了一种综合的方法来提高大型语言模型作为代理的性能，并通过在 AgentBench 的五个代理任务上的评估取得了令人满意的结果。

Mar, 2024

训练专家语言模型带来的益处：比指令调整更胜一筹

本文研究发现，相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型，仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外，分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处，包括避免负面任务转移，能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。

Feb, 2023