公平偏好引导改进人工对齐的大型语言模型判断

Jun, 2024

公平偏好引导改进人工对齐的大型语言模型判断

Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments

Han Zhou, Xingchen Wan, Yinhong Liu, Nigel Collier, Ivan Vulić...

TL;DR使用大型语言模型 (LLMs) 进行语言生成质量评估既具有成本效益又不需要参考样本表明其具有很大潜力。然而，LLMs 表现出偏好偏向和对提示设计敏感。在本研究中，我们发现即使在语义上等效的指示下，LLMs 的预测偏好可能非常脆弱和倾斜。因此，我们提出了一种自动的零 - shot 评估导向提示优化框架 ZEPO，旨在产生更公平的偏好决策并提高 LLM 评估器与人类判断的一致性。通过基于偏好决策公平性的零 - shot 学习目标，ZEPO 在代表性元评估基准上显示出显著的性能改进，无需标定数据。我们的发现强调了偏好公平性和人类一致性之间的关键关联，将 ZEPO 定位为弥合 LLM 评估器与人类判断之间差距的有效提示优化器。

Abstract

large language models (LLMs) have shown promising abilities as cost-effective and reference-free evaluators for assessing language generation quality. In particular, pairwise llm evaluators, which compare two gen

large language models pairwise llm evaluators predictive preference fairness zepo

发现论文，激发创造

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

与人类判断相一致：大型语言模型评估者中的成对优先关系的作用

使用 Pairwise-preference Search（PAIRS）方法，通过对比评估候选文本，解决了大型语言模型（LLMs）在评估中出现的偏差与不连贯问题。

Mar, 2024

大型语言模型的评估存在不一致和偏见

本研究通过使用 SummEval 数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

您的大型语言模型暗自支持公平性，您应该像公平支持者一样进行提示

通过为大型语言模型提供具体角色，我们开发了一个自动生成角色的流程，使得大型语言模型能够表达多元化的观点，从而解决其存在的公平性问题。

Feb, 2024

基于 LLM 的决策中引导群体公平性

通过评估 LLM（大型语言模型）在毒性分类任务中的公平性表现，我们引入多种修复技术并对公平性和性能进行了评估，以鼓励在基于 LLM 的分类器中进行更多关于群体公平性的研究。

Jun, 2024

大型语言模型不是公正的评估器

本文发现了采用大型语言模型（LLMs）作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验，这种方法成功缓解了评估偏差，与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究，作者将文章中的技术集成到一个易于使用的工具包 FairEval 中，同时结合了人工注释。

May, 2023

对抗性偏好优化

人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO)，通过最小最大博弈的方式，使 LLM 代理和偏好模型交替更新，从而自适应地解决生成分布差异的问题，实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。

Nov, 2023

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024

优化语言模型以符合人类偏好的问题的因果推断

对大型语言模型的优化进行了初步探索，为了使模型正确学习文本和结果之间的关系，提出了因果语言优化问题的形式化，开发了解决该问题的方法 —— 因果偏好优化（CPO），并扩展了双重稳健 CPO（DR-CPO），最后在困难的混淆条件下验证了 DR-CPO 对于直接结果数据上优化最先进的 LLMs 的有效性和鲁棒性。

Feb, 2024

大型语言模型人类偏好学习综述

本综述从以偏好为中心的角度回顾了探索大型语言模型（LLMs）的人类偏好学习的进展，包括偏好反馈的来源和格式，偏好信号的建模和使用，以及对齐 LLMs 的评估。

Jun, 2024