自我评估:选择性执行指令与对齐自我评估
使用Self-Instruct框架,可以将预训练模型与指令对齐,提高模型的指令遵循能力,无需过多人为指令数据,可用于finetuning,大大提高了模型的通用性。
Dec, 2022
对于指令调优(IT)领域的研究进行了概述,它是增强和可控大型语言模型(LLMs)能力的关键技术。该研究系统回顾了IT的一般方法论、IT数据集的构建、IT模型的训练以及不同模态、领域和应用的应用,并分析了影响IT结果的因素(例如,指令输出的生成、指令数据集的大小等)。还审查了IT存在的潜在问题以及对其的批评,指出了现有策略的不足之处,并提出了一些有益的研究方向。
Aug, 2023
这篇论文介绍了FollowEval基准测试,通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现,测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度,并发现这些模型在指令跟随能力方面明显落后于人类,指出了这些模型在这方面还有很大的改进空间。
Nov, 2023
本文提出了一种新的自动对齐框架SELF-JUDGE,通过在模型中集成筛选器和评价器的功能来实现高效的在线策略学习,无需单独引入奖励模型进行训练,实验证明SELF-JUDGE在偏好基准测试中表现优异。
Feb, 2024
定义了指令不一致问题并提出了两阶段训练框架,在第一阶段通过相似指令增强帮助模型跟随指令,第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性,并通过自奖励训练过程来验证该框架的有效性。
Mar, 2024
我们提出了自我改进指导调整方法,通过引导较小语言模型进行自我改进,以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上,将推理能力从较大语言模型传输到较小语言模型,然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明,该方法在领域内外场景均显著优于指导调整方法,并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。
May, 2024
介绍了一种有效的数据增强技术,通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体,以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性,并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型,在我们的指令追踪基准和常用基准上,发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。
Jun, 2024
SELF-GUIDE机制通过自我合成的数据,指导大型语言模型(LLM)在特定任务上进行微调,显著提高性能,为LLM赋予任务特定的专家能力,无需外部学习信号。
Jul, 2024
本研究解决了大语言模型(LLMs)在自我评判能力提升中的不足。通过引入一种新的“元奖励”步骤,使模型能够评判自己的判断并基于反馈改进,使得模型在执行指令和自我评判方面均有所提升。研究发现,这种无监督的方法显著提高了模型的判断能力,显示出模型在没有人类监督下自我提升的潜力。
Jul, 2024
本研究解决了在缺乏指导性数据的情况下,如何使预训练语言模型具备遵循指令能力的问题。提出了一种新方法,通过使用随机文本的前半部分作为指令,与GPT-3.5-turbo或GPT-4-turbo生成的文本作为响应,进行微调。实验表明,使用这种“非指导性数据”进行微调的模型在遵循指令能力上有所提升,甚至达到了与经过监督微调的模型相当的水平,具有重要的研究意义。
Aug, 2024