元奖励语言模型：通过 LLM 作为元评判者的自我提升对齐

Jul, 2024

元奖励语言模型：通过 LLM 作为元评判者的自我提升对齐

Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian...

TL;DR本研究解决了大语言模型（LLMs）在自我评判能力提升中的不足。通过引入一种新的“元奖励”步骤，使模型能够评判自己的判断并基于反馈改进，使得模型在执行指令和自我评判方面均有所提升。研究发现，这种无监督的方法显著提高了模型的判断能力，显示出模型在没有人类监督下自我提升的潜力。

Abstract

Large Language Models (LLMs) are rapidly surpassing human knowledge in many domains. While improving these models traditionally relies on costly human data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs can improve by judging their own responses instead of r

发现论文，激发创造

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过fine-tuning在多个任务上达到了SOTA水平。

Oct, 2022

透视偏好：解开大型语言模型对齐中的反馈获取

通过稀疏反馈的设计选择以及反馈协议对大型语言模型（LLMs）的对齐和评估进行分析，发现评分和排名所推断的偏好在人类和人工智能注释者中有显著差异，并揭示了对齐LLMs评估的方法中的关键缺陷和对反馈协议的强烈依赖。

Aug, 2023

让语言模型能够从数据中隐式学习自我改进

我们提出了一种从人类偏好数据中隐式学习的自我改进框架（PIT），以最大程度地与人类偏好相一致，显著优于提示法方法。

Oct, 2023

通过互动演示教授语言模型自我提升

通过TriPosT训练算法，这篇论文介绍如何赋予更小的模型自我改进的能力，从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距，并且通过与大型语言模型进行互动，收集反馈和改进，并将这一经验用于训练小模型，实验证明通过学习和纠正自己的错误对于小模型改进性能至关重要。

Oct, 2023

拒绝的原因？将语言模型与判断对齐

我们首次通过自然语言反馈的方法探索了对齐大型语言模型的可能性，并提出了一种称为Contrastive Unlikelihood Training (CUT)的新框架，通过细致判定检测和修正来实现对不适当内容的改进，获得了优于基线模型的好成绩。同时，我们的分析表明判定相较于奖励在LLM对齐方面具有更大的潜力，值得进行进一步研究。

Dec, 2023

自奖励语言模型

通过自我奖励语言模型的迭代DPO训练，本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升，最终的Llama 2 70B模型在AlpacaEval 2.0排行榜上表现优于许多现有系统，包括Claude 2、Gemini Pro和GPT-4 0613。这项初步研究为模型在两个方向上不断改进的可能性打开了大门。

Jan, 2024

基于策略自我判断的大型语言模型对齐

本文提出了一种新的自动对齐框架SELF-JUDGE，通过在模型中集成筛选器和评价器的功能来实现高效的在线策略学习，无需单独引入奖励模型进行训练，实验证明SELF-JUDGE在偏好基准测试中表现优异。

Feb, 2024

通过想象力、搜索和批评实现LLM的自我提升

AlphaLLM通过将Monte Carlo Tree Search(MCTS)与LLMs集成，建立了一个自我改进循环，从而提高了LLMs的能力，同时避免了其他额外的注释，实验结果表明AlphaLLM显著提高了LLMs的性能。

Apr, 2024

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024

自我评估：选择性执行指令与对齐自我评估

本研究解决了预训练大语言模型在执行人类指令时因测试时间数据分布变化而导致的准确性问题。提出的选择性指令执行方法依赖于训练判别模型来预测模型响应的质量，并通过自我评估框架Self-J来建立这些模型，避免了需要人工标注的质量分数。实验表明，该方法在多个开源模型中的表现优于强基线，并且在域间具有良好的泛化能力。

Sep, 2024