InstructZero: 大型黑盒语言模型中的高效指令优化
LLMs 可以通过遵循自然语言指令来完成各种任务,但是指令的质量会对 LLMs 的性能产生极大影响。本文提出了 Auto-Instruct 方法,通过生成多样化的候选指令并使用基于训练过的 575 个 NLP 任务的评分模型进行排序,自动提高 LLMs 的指令质量。在 118 个领域外任务的实验证明,Auto-Instruct 超越了人工编写的指令和现有 LLM 生成的指令的基线。此外,我们的方法还具有显著的泛化能力,即使对于没有被纳入其训练过程的其他 LLMs 也同样有效。
Oct, 2023
VisLingInstruct 通过自主评估和优化教学文本的过程,改善了多模态语言模型中视觉感知和语言表达的协同作用,这在零样本学习中显著提高了多模态任务的性能。
Feb, 2024
在计算社会科学分类任务中,评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果,并研究了各种提示策略的影响。发现在零次设置下,当前 LLMs 无法与较小的经过微调的基线变压器模型(如 BERT)的性能匹配。此外,发现不同的提示策略可以显着影响分类准确性,准确性和 F1 分数的差异超过 10%。
May, 2023
使用 Self-Instruct 框架,可以将预训练模型与指令对齐,提高模型的指令遵循能力,无需过多人为指令数据,可用于 finetuning,大大提高了模型的通用性。
Dec, 2022
通过引入一种新颖的指令提炼方法,将开源的 Large Language Models(LLMs)的成对排序能力提炼为更简单、更高效的逐点排序,以提高 LLMs 的排序性能和效率。
Nov, 2023
在这项研究中,我们评估了 10 个开源指导式 LLMs 在四个代表性的代码理解和生成任务上的表现,并得出了以下主要发现:首先,在零样本设置下,指导式 LLMs 在代码理解和生成任务上非常有竞争力,有时甚至比特定于每个下游任务进行微调的小型 SOTA 模型表现更好。我们还发现,对于与代码相关的任务,并非总是越大的指导式 LLMs 表现更好。其次,在少样本设置下,我们发现添加演示示例可以大大帮助指导式 LLMs 在大多数代码理解和生成任务中表现得更好;然而,这些例子有时会导致不稳定甚至更差的表现。此外,我们发现广泛使用的基于 BM25 的选样策略在生成问题上明显优于基本随机选样或固定选样。第三,在微调设置下,我们发现与零样本 / 一样本的表现相比,微调可以进一步提高模型在下游代码理解和生成任务中的性能。此外,在在相同下游任务数据集上进行微调后,指导式 LLMs 的性能优于小型 SOTA 模型和未进行指导微调的相似规模 LLMs。根据我们的发现,我们进一步提出了有关模型和使用建议、性能和成本的权衡以及未来方向的实用影响。
Aug, 2023
为了最大化下游度量而没有模块级别的标签或梯度,我们研究了语言模型程序的提示优化,即如何更新这些提示。我们通过优化自由形式的指令和少样本演示来解决这个问题,并引入了几种策略来制定任务相关的指令和在模块之间导航学分分配。使用这些策略,我们开发了一个名为 MIPRO 的新型优化器,在使用最先进的开源模型(Llama-3-8B)的六个不同的语言模型程序中,准确率高达 12.9% 优于基线。我们将在此 URL 发布我们的新优化器和基准测试。
Jun, 2024
我们提出了一种名为 InstOptima 的新方法,将指导生成作为一种进化多目标优化问题,并借助大型语言模型模拟指导操作符,通过引入一个目标引导机制来改进生成指导的质量,实验证明了改进的微调性能和生成一系列高质量指导的多样性。
Oct, 2023
通过自动修订样本来增强指令数据集的质量,CoachLM 训练自人工专家修订过的样本,并将数据集中高质量样本的比例从 17.7%提高到 78.9%。CoachLM 通过平均 29.9%的提升改善了指令调优的语言学习模型的指令跟随能力,并在华为的 LLM 数据管理系统中实现了高达 20%的效率提升。
Nov, 2023