你确定吗？重新排名：为更好的偏好数据集进行重复排名

May, 2024

你确定吗？重新排名：为更好的偏好数据集进行重复排名

Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets

Peter Devine

TL;DR通过使用强化学习从 AI 反馈 (RLAIF) 来训练大型语言模型 (LLM)，使模型输出更符合人类偏好。我们提出了重复排序方法，通过多次对相同响应进行评估并仅训练那些一致排名的响应。使用 62 种语言中的 2,714 个提示，我们从 7 个顶级多语言 LLM 生成了响应，并让 GPT-4 对每个响应进行了五次排名。通过在六种语言中在 MT-Bench 聊天基准测试中进行评估，我们的方法优于在所有可用提示上进行训练的标准实践。我们的工作凸显了 RLAIF 数据集生成中质量与数量的权衡，并提供了一个增强数据集和模型质量的可叠加策略。

Abstract

Training large language models (LLMs) with Reinforcement Learning from AI Feedback (RLAIF) aligns model outputs more closely with human preferences. This involves an evaluator model ranking multiple candidate responses to user prompts. However, the rankings from popular →

large language models reinforcement learning from ai feedback evaluator models repeat ranking method rlaif dataset generation

发现论文，激发创造

大型语言模型中偏重冗余的偏好标注

近年来，大型语言模型（LLMs）在自然语言处理和机器学习领域取得了显著的发展，其性能提升的一个关键因素是通过人类反馈实现与人类的对齐，同时研究发现其他 LLMs 进行强化学习也可以取代人类反馈。本文研究了使用其他 LLMs 来评估 LLMs 时出现的偏差，并着重探究了冗长性偏差 —— 即 LLMs 有时倾向于提供更冗长的答案，即使质量相似。我们发现在我们的问题设置中，GPT-4 更倾向于提供更长的答案，我们提出了一种度量这种偏差的指标。

Oct, 2023

RankPrompt: 逐步对比使语言模型成为更好的推理者

通过使用 RankPrompt 方法，LLMs 可以自我评级其回答，从而显著提高 ChatGPT 和 GPT-4 的推理表现。

Mar, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

无需真实标准的大型语言模型排名

大语言模型的评估和排名是一个重要的问题，本研究提出了一种新的方法，在没有任何参考数据的情况下，通过考虑三元组模型相互评估来排名这些模型，实验证明该方法可靠地恢复接近真实的排名，为实际使用提供了可行的低资源机制。

Feb, 2024

APEER：自动提示工程提升大型语言模型重排

通过自动提示工程算法 APEER，大型语言模型在信息检索中的零样本相关性排名取得了显著的性能提升，并展现出更好的跨任务和跨语言模型的可迁移性。

Jun, 2024

使用大规模人类反馈数据进行对话响应排名训练

通过社交媒体反馈数据构建训练集，在 133M 个人类反馈数据上训练了基于 GPT-2 的 DialogRPT 模型，结合评分模型排名机器生成的对话回复，并通过人类评估证明其效果优于基线模型。

Sep, 2020

大型语言模型不是公正的评估器

本文发现了采用大型语言模型（LLMs）作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验，这种方法成功缓解了评估偏差，与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究，作者将文章中的技术集成到一个易于使用的工具包 FairEval 中，同时结合了人工注释。

May, 2023

透视偏好：解开大型语言模型对齐中的反馈获取

通过稀疏反馈的设计选择以及反馈协议对大型语言模型（LLMs）的对齐和评估进行分析，发现评分和排名所推断的偏好在人类和人工智能注释者中有显著差异，并揭示了对齐 LLMs 评估的方法中的关键缺陷和对反馈协议的强烈依赖。

Aug, 2023

大型语言模型具有配对排名提示的有效文本排名器

本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR)，通过使用适当的排名提示，减少了 LLMs 的负担，使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。

Jun, 2023

元排名：不太强大的语言模型能够进行单一回应判断

我们提出了一种名为 Meta Ranking (MR) 的新方法，通过比较目标查询 - 响应对与参考查询 - 响应对，使能力较弱的大语言模型能够有效判断个别响应的可靠性，并且在推理任务中实现了出色的误差检测效果，可以用于改进大语言模型的性能，如查询路由和迭代训练数据过滤等实际应用中。

Feb, 2024