基于预测的大型语言模型排序

Feb, 2024

Prediction-Powered Ranking of Large Language Models

Ivi Chatzi, Eleni Straitouri, Suhas Thejaswi, Manuel Gomez Rodriguez

TL;DR使用统计框架，我们可以以一定的概率保证，通过人类和强大的大型语言模型的成对比较排名结果覆盖了人类偏好的真实排名。

Abstract

large language models are often ranked according to their level of alignment with human preferences -- a model is better than other models if its outputs are more frequently preferred by humans. One of the most popular ways to elicit human preferences utilizes →

large language models alignment with human preferences pairwise comparisons uncertainty statistical framework

发现论文，激发创造

与人类判断相一致：大型语言模型评估者中的成对优先关系的作用

使用 Pairwise-preference Search（PAIRS）方法，通过对比评估候选文本，解决了大型语言模型（LLMs）在评估中出现的偏差与不连贯问题。

Mar, 2024

无需真实标准的大型语言模型排名

大语言模型的评估和排名是一个重要的问题，本研究提出了一种新的方法，在没有任何参考数据的情况下，通过考虑三元组模型相互评估来排名这些模型，实验证明该方法可靠地恢复接近真实的排名，为实际使用提供了可行的低资源机制。

Feb, 2024

基于排名增强的列表优化在统计机器翻译中的应用

该研究提出了一种面向结构预测问题的列表学习框架，通过直接对整个翻译列表进行建模，学习可以更好地适应给定列表样本的参数，并提出了更加敏感于排名错误的顶级增强列表损失函数。研究结果表明，该列表学习框架和顶级增强列表损失函数均可以显著提高翻译质量。

Jul, 2017

主题建模方法在排名中的应用

我们提出了一种基于主题建模的方法来预测配对比较中的偏好，该方法利用新的生成模型来捕获预测人群中多种共享潜在排名以及自然的不一致性，并将潜在排名的估计形式地归约为相当于统计模型中的话题建模问题，在此基础上利用相关领域的新进展开发了一个算法，该算法可以以可证明的一致性、样本和计算复杂度的保证学习共享的潜在排名，并在一些半合成和真实世界数据集上证明了与当前最先进方法在预测偏好方面的实证竞争力。

Dec, 2014

CURATRON：大型语言模型鲁棒对齐的完备偏好数据

通过偏好学习与重新校准数值来解决大型语言模型与人类价值观对齐的挑战，特别关注在偏好数据集中处理不完整和损坏数据的问题，并提出了一种鲁棒且完全重新校准数据集数值的新方法，采用保证多项式时间的排名算法，主要针对经典的 Bradley-Terry-Luce 模型及其某些推广模型，通过实验证实了算法在处理一般和大型语言模型偏好数据集中的对抗噪声和未观察比较方面的鲁棒性。

Mar, 2024

透视偏好：解开大型语言模型对齐中的反馈获取

通过稀疏反馈的设计选择以及反馈协议对大型语言模型（LLMs）的对齐和评估进行分析，发现评分和排名所推断的偏好在人类和人工智能注释者中有显著差异，并揭示了对齐 LLMs 评估的方法中的关键缺陷和对反馈协议的强烈依赖。

Aug, 2023

大型语言模型具有配对排名提示的有效文本排名器

本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR)，通过使用适当的排名提示，减少了 LLMs 的负担，使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。

Jun, 2023

PRD：同行评等与讨论提升基于大型语言模型的评估

研究论文通过引入基于教育领域的 insights 和 lessons，提出了改进大型语言模型评估的新方法，包括利用同行排序算法和同行讨论来提高评估的准确性和与人类判断的一致性，并为探索难以比较的模型提供了空间。

Jul, 2023

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

大型语言模型能准确预测搜索者偏好

通过获取真实用户的仔细反馈来改进相关性标签的质量，并提出一种基于大型语言模型的标签生成方法，从而获得具有和人工标记员相似的准确性和能力的高质量标签，为搜索系统的评估和优化提供了有效途径。

Sep, 2023