自我指导:用自动生成的指令对齐语言模型
本篇论文提出通过人类反馈进行微调以增进语言模型与用户意图更好地对齐的方法,并展示了基于该方法得到的 InstructGPT 模型在排名、输出质量、真实性等方面皆优于规模更大的 GPT-3 模型,并最终得出该方法为改进语言模型对齐的一个有前途的方向。
Mar, 2022
该研究论文证明使用 in-context learning 可让大型语言模型显式推断潜在任务,通过自然语言生成指令,InstructGPT 的表现达到了人类的 65.7%,建议指令感应可能是一种学习范例。
May, 2022
LLMs 可以通过遵循自然语言指令来完成各种任务,但是指令的质量会对 LLMs 的性能产生极大影响。本文提出了 Auto-Instruct 方法,通过生成多样化的候选指令并使用基于训练过的 575 个 NLP 任务的评分模型进行排序,自动提高 LLMs 的指令质量。在 118 个领域外任务的实验证明,Auto-Instruct 超越了人工编写的指令和现有 LLM 生成的指令的基线。此外,我们的方法还具有显著的泛化能力,即使对于没有被纳入其训练过程的其他 LLMs 也同样有效。
Oct, 2023
本文利用 GPT-4 生成的 instruction-following 数据进行大型语言模型 finetuning,发现相较于之前最先进模型生成的数据,52K 的英文和中文 instruction-following 数据可以显着提高新任务的零 - shot 性能。同时我们公开了 GPT-4 生成的数据以及我们的代码库。
Apr, 2023
LLMs 在自然语言处理任务中取得了巨大成功,但在生物医学领域的指令却只有少数发布。为了解决这个问题,我们介绍了 BioInstruct,一个包含超过 25000 个示例的定制任务特定指令数据集。通过使用 BioInstruct 数据集对 LLMs 进行微调,我们旨在优化 LLM 在生物医学自然语言处理(BioNLP)领域的性能。我们在 BioNLP 应用中对 LLaMA LLMs(1&2,7B&13B)进行了指令调优,并评估了它们的信息提取、问答和文本生成能力。我们还使用多任务学习原则评估了指令对模型性能的贡献。
Oct, 2023
通过对大量不同类别的创造性指示进行收集,实现了使用深度学习语言模型(pretrained language models)从 inference-time 自然语言指示中执行新任务的可能性并验证了其用于数据集扩展和多样化的价值。
Dec, 2022
指令调优在大规模代码语言模型(Code LLMs)中对程序合成任务至关重要。本文提出一种名为 Semi-Instruct 的方法,通过将自然指令中不规范代码转化为正确的指令 - 代码对,并设计了一种新颖的测试用例构建方法来验证生成代码的正确性。实验结果显示,Semi-Instruct 方法在数据规模增加时性能稳定提高。
Mar, 2024
我们提出了一种可扩展的方法,通过自动标记人工编写的文本与相应的指令来构建高质量的指令跟随语言模型。我们的方法命名为指令反向翻译,使用少量种子数据和给定的网络语料库对语言模型进行微调,通过为网络文档生成指令提示来构建训练样本(自助增强),然后从这些候选样本中选择高质量的例子(自我策划)。然后使用这些数据对模型进行微调。对 LLaMa 进行两次迭代的微调可以得到一个模型,它在 Alpaca 排行榜上性能优于其他基于 LLaMa 的模型,并且不依赖蒸馏数据,展示了高度有效的自我对齐。
Aug, 2023
本文提出了 InstructMining 用于评估指令遵循数据的质量,并使用该方法选择高质量数据进行 Fei 调。研究结果表明,使用 InstructMining 所选择的数据集表现出更优的性能。
Jul, 2023