人工课程指导的指令优化

Oct, 2023

Instruction Tuning with Human Curriculum

Bruce W. Lee, Hyunsoo Cho, Kang Min Yoo

TL;DR应用结构化认知学习方法于现代大型语言模型的指令调优，通过提供高度结构化合成数据集，模仿人类教育的渐进和有组织性，可以显著提升语言模型在理解和响应复杂指令和任务方面的能力。

Abstract

The dominant paradigm for instruction tuning is the random-shuffled training of maximally diverse instruction-response pairs. This paper explores the potential benefits of applying a structured cognitive learning

instruction tuning structured cognitive learning large language models synthetic dataset cognitive rigorous training

发现论文，激发创造

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点（7b 到 33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于 GPT-4 的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

受指导的偏见：经过指导调节的语言模型呈现出应急认知偏差

通过检验三种认知偏见（假象效应、确定性效应和信仰偏误）在经过指导调优的语言模型中的存在程度，我们的研究提供了证据表明，这些经过调优的模型表现出过去预训练模型中不存在或较不明显的偏见，进一步突出了这些偏见存在于各种模型中的事实，特别是那些经过指导调优的模型，如 Flan-T5，GPT3.5 和 GPT4，这一研究对认识指导调优的语言模型中的认知偏见是至关重要的，从而对更可靠、无偏的语言模型的发展具有重要意义。

Aug, 2023

CITING：大型语言模型为指导调整课程创作

利用人工智能模型替代人类作为教师，通过研究生成学生成绩的修订，构建了 Curriculum Instruction TunING (CITING) 方法，提高了大型语言模型的表达、深度和全面性能，在 GPT-4 评估上取得了 79.4% 的胜率。

Oct, 2023

生成模型的自动评估与指令调优

基于指令调优的学习度量可以提供自然语言生成的自动评估，通过对多任务的联合训练，可以进一步改善性能，对未来的少量或无人标注数据的任务具有积极意义。

Oct, 2023

探究指令数据比例对大型语言模型的影响：基于实际应用案例的经验研究

本文探讨了指令调整对大型语言模型性能的影响，并在在线应用案例中通过增加不同比例的指令数据探究了模型的表现。结果表明，增加指令数据可改善某些任务的表现，但对于数学和代码等任务，增加数据规模的改善效果不明显。

Mar, 2023

大型语言模型的指导调整：一项调研

对于指令调优（IT）领域的研究进行了概述，它是增强和可控大型语言模型（LLMs）能力的关键技术。该研究系统回顾了 IT 的一般方法论、IT 数据集的构建、IT 模型的训练以及不同模态、领域和应用的应用，并分析了影响 IT 结果的因素（例如，指令输出的生成、指令数据集的大小等）。还审查了 IT 存在的潜在问题以及对其的批评，指出了现有策略的不足之处，并提出了一些有益的研究方向。

Aug, 2023

TeGit: 基于文本支撑任务设计的高质量指导调优数据生成

通过训练语言模型自动设计任务而收集高质量的教学适应数据的可扩展方法，自动生成任务指导、输入和输出，用于过滤噪音，并通过自动和手工评估实验来证明数据集的质量。

Sep, 2023

指令调整将 LLMs 对齐到人脑

指导调优对大型语言模型（LLMs）进行调优的普遍方法，能够使其生成更接近自然语言查询的人类响应的输出，在许多情况下在各种测试中实现人类水平的性能。然而，指导调优是否真正使 LLMs 更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对 LLM-human 相似性的影响：(1) 大脑对齐，即 LLM 内部表示与人类语言系统的神经活动相似度，(2) 行为对齐，即 LLM 和人类在阅读任务上的行为相似度。我们评估了 25 个原始版本和经过指导调优的 LLMs 在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均 6％，但对行为对齐没有类似效果。为了确定影响 LLM-brain 对齐的因素，我们计算了 LLMs 的大脑对齐与各种模型特性之间的相关性，如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是，我们发现大脑对齐和模型大小（r = 0.95）以及需要世界知识的任务的表现（r = 0.81）之间存在强正相关。我们的结果表明，指导调优 LLMs 可以改善世界知识表示和大脑对齐，这表明在 LLMs 中编码世界知识的机制也可以改善与人类大脑的表征对齐。

Dec, 2023

从零开始的合成数据：通用指令调整用于语言模型

借助预先策划的人类知识和能力分类体系， GLAN 是一种适用于大型语言模型（LLM）的通用且可扩展的指令调整方法，它能纵向横向生成大规模的合成指令数据，覆盖人类知识和技能的完整领域。

Feb, 2024

中文开放指令通用程序员：初步发布

通过多种方法适应 4 个子任务的内在特征，我们提出了一个项目来创建中文指令数据集，收集了约 20 万个中文指令调整样本，并总结了现有的英文和中文指令语料库以及新构建的中文指令语料库的潜在应用。

Apr, 2023