生成模型的自动评估与指令调优

Oct, 2023

Automatic Evaluation of Generative Models with Instruction Tuning

Shuhaib Mehri, Vered Shwartz

TL;DR基于指令调优的学习度量可以提供自然语言生成的自动评估，通过对多任务的联合训练，可以进一步改善性能，对未来的少量或无人标注数据的任务具有积极意义。

Abstract

automatic evaluation of natural language generation has long been an elusive goal in NLP.A recent paradigm fine-tunes pre-trained language models

automatic evaluation natural language generation language models instruction tuning performance improvements

发现论文，激发创造

INSTRUCTEVAL：面向指导调整的大语言模型的全面评估

INSTRUCTEVAL 是一个全面的评估套件，旨在评估大型语言模型在指令调整下的表现，其结果表明，指令数据的质量是影响模型性能的最重要因素，并且从问题解决能力和与人类价值观的一致性方面，这些模型还有很大的提升空间。

Jun, 2023

TeGit: 基于文本支撑任务设计的高质量指导调优数据生成

通过训练语言模型自动设计任务而收集高质量的教学适应数据的可扩展方法，自动生成任务指导、输入和输出，用于过滤噪音，并通过自动和手工评估实验来证明数据集的质量。

Sep, 2023

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点（7b 到 33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于 GPT-4 的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

精调语言模型是零 - shot 学习器

通过对自然语言指令模板中的 60 个自然语言处理任务进行调整，我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。

Sep, 2021

不自然的指示：使用（几乎）无人工操作的方式调整语言模型

通过对大量不同类别的创造性指示进行收集，实现了使用深度学习语言模型（pretrained language models）从 inference-time 自然语言指示中执行新任务的可能性并验证了其用于数据集扩展和多样化的价值。

Dec, 2022

探索生物医学语言处理中指令调整的有效性

利用指令调整（instruction tuning）技术，对两个规模庞大的通用语言模型进行研究，以期在生物医学自然语言处理任务上取得类似于 BioBERT 和 BioClinicalBERT 等特定编码器模型的结果，并提供了相应的代码、模型和基于指令的数据集。

Dec, 2023

受指导的偏见：经过指导调节的语言模型呈现出应急认知偏差

通过检验三种认知偏见（假象效应、确定性效应和信仰偏误）在经过指导调优的语言模型中的存在程度，我们的研究提供了证据表明，这些经过调优的模型表现出过去预训练模型中不存在或较不明显的偏见，进一步突出了这些偏见存在于各种模型中的事实，特别是那些经过指导调优的模型，如 Flan-T5，GPT3.5 和 GPT4，这一研究对认识指导调优的语言模型中的认知偏见是至关重要的，从而对更可靠、无偏的语言模型的发展具有重要意义。

Aug, 2023

人工课程指导的指令优化

应用结构化认知学习方法于现代大型语言模型的指令调优，通过提供高度结构化合成数据集，模仿人类教育的渐进和有组织性，可以显著提升语言模型在理解和响应复杂指令和任务方面的能力。

Oct, 2023

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入 “软提示” 嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

自动评估方法在面向指导型语言模型中的可靠性研究

我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究，发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断，但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。

Feb, 2024