自我评估：选择性执行指令与对齐自我评估

Sep, 2024

自我评估：选择性执行指令与对齐自我评估

Self-Judge: Selective Instruction Following with Alignment Self-Evaluation

Hai Ye, Hwee Tou Ng

TL;DR本研究解决了预训练大语言模型在执行人类指令时因测试时间数据分布变化而导致的准确性问题。提出的选择性指令执行方法依赖于训练判别模型来预测模型响应的质量，并通过自我评估框架Self-J来建立这些模型，避免了需要人工标注的质量分数。实验表明，该方法在多个开源模型中的表现优于强基线，并且在域间具有良好的泛化能力。

Abstract

Pre-trained large Language Models (LLMs) can be tailored to adhere to human instructions through instruction tuning. However, due to shifts in the distribution of test-time data, they may not always execute instructions accurately, potentially generating factual errors or misaligned co

发现论文，激发创造

自我指导: 用自动生成的指令对齐语言模型

使用Self-Instruct框架，可以将预训练模型与指令对齐，提高模型的指令遵循能力，无需过多人为指令数据，可用于finetuning，大大提高了模型的通用性。

Dec, 2022

大型语言模型的指导调整：一项调研

对于指令调优（IT）领域的研究进行了概述，它是增强和可控大型语言模型（LLMs）能力的关键技术。该研究系统回顾了IT的一般方法论、IT数据集的构建、IT模型的训练以及不同模态、领域和应用的应用，并分析了影响IT结果的因素（例如，指令输出的生成、指令数据集的大小等）。还审查了IT存在的潜在问题以及对其的批评，指出了现有策略的不足之处，并提出了一些有益的研究方向。

Aug, 2023

FollowEval: 评估大型语言模型指令遵循能力的多维度基准

这篇论文介绍了FollowEval基准测试，通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现，测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度，并发现这些模型在指令跟随能力方面明显落后于人类，指出了这些模型在这方面还有很大的改进空间。

Nov, 2023

基于策略自我判断的大型语言模型对齐

本文提出了一种新的自动对齐框架SELF-JUDGE，通过在模型中集成筛选器和评价器的功能来实现高效的在线策略学习，无需单独引入奖励模型进行训练，实验证明SELF-JUDGE在偏好基准测试中表现优异。

Feb, 2024

通过一致对齐提升大型语言模型的鲁棒性

定义了指令不一致问题并提出了两阶段训练框架，在第一阶段通过相似指令增强帮助模型跟随指令，第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性，并通过自奖励训练过程来验证该框架的有效性。

Mar, 2024

自我完善指导调优用于对齐语言模型中的推理

我们提出了自我改进指导调整方法，通过引导较小语言模型进行自我改进，以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上，将推理能力从较大语言模型传输到较小语言模型，然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明，该方法在领域内外场景均显著优于指导调整方法，并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。

May, 2024

优化和测试指令追踪：分析对指令化调整的语言模型的细粒度指令变种的影响

介绍了一种有效的数据增强技术，通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体，以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性，并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型，在我们的指令追踪基准和常用基准上，发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。

Jun, 2024

自引导：通过自合成微调实现更好的任务特定指示跟随

SELF-GUIDE机制通过自我合成的数据，指导大型语言模型（LLM）在特定任务上进行微调，显著提高性能，为LLM赋予任务特定的专家能力，无需外部学习信号。

Jul, 2024

元奖励语言模型：通过 LLM 作为元评判者的自我提升对齐

本研究解决了大语言模型（LLMs）在自我评判能力提升中的不足。通过引入一种新的“元奖励”步骤，使模型能够评判自己的判断并基于反馈改进，使得模型在执行指令和自我评判方面均有所提升。研究发现，这种无监督的方法显著提高了模型的判断能力，显示出模型在没有人类监督下自我提升的潜力。

Jul, 2024

非指导性微调：在没有指导性数据的情况下赋予预训练语言模型遵循指令的能力

本研究解决了在缺乏指导性数据的情况下，如何使预训练语言模型具备遵循指令能力的问题。提出了一种新方法，通过使用随机文本的前半部分作为指令，与GPT-3.5-turbo或GPT-4-turbo生成的文本作为响应，进行微调。实验表明，使用这种“非指导性数据”进行微调的模型在遵循指令能力上有所提升，甚至达到了与经过监督微调的模型相当的水平，具有重要的研究意义。

Aug, 2024