通过微调语言模型，在人类具有不同偏好的情况下寻找共识

Nov, 2022

通过微调语言模型，在人类具有不同偏好的情况下寻找共识

Fine-tuning language models to find agreement among humans with diverse preferences

Michiel A. Bakker, Martin J. Chadwick, Hannah R. Sheahan, Michael Henry Tessler, Lucy Campbell-Gillingham...

TL;DR通过 fine-tuning 机制，使用大型语言模型生成众人认可的共识性议论，以协调多样化的人类意见，并发现从子集中生成的共识性声明提高了个体贡献，并能够被人类用户所接受，具有较强的差异性和普适性。

Abstract

Recent work in large language modeling (LLMs) has used fine-tuning to align outputs with the preferences of a prototypical user. This work assumes that human preferences are static and homogeneous across individu

发现论文，激发创造

大型语言模型的异构价值评估

本研究提出了A2EHV，一种自动化对齐评估方法，旨在提高大型语言模型的价值合理性，并在异构价值系统下进行评估，结合社会心理学中的社会价值取向框架，对大型语言模型的价值合理性进行评估，观察到大型模型更倾向于与中性价值对齐。

May, 2023

基于贝叶斯方法对齐语言模型与人类偏好

本文提出了一种新颖的方法，名为d-PM，采用贝叶斯框架来考虑人类偏好之间的分歧分布，并利用d-PM模型的偏好分数使用对比学习策略来训练自然语言生成模型，实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。

Oct, 2023

群体偏好优化：大型语言模型的少样本对齐

利用少量数据实现群体偏好优化的大型语言模型对齐框架，通过使用独立的Transformer模块预测群体对语言模型生成结果的偏好，并通过元学习训练多个群体的偏好，从而在大规模语言模型上实现更准确的对齐效果，同时减少了群体特定偏好、训练和推理计算资源的需求。

Oct, 2023

解剖人类和LLM偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如GPT-4-Turbo更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在MT-Bench上高达0.59分（1-10分制），在AlpacaEval 2.0上高达31.94分（0-100分制），突显了这种战略性调整的重要影响。

Feb, 2024

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024

PRISM对鲍尔语言模型的主观和多元文化对齐的参与式、代表性和个性化人类反馈

PRISM是一项以人为导向的研究，通过调查1,500个来自75个国家具有不同社会经济背景和偏好的参与者与21个LLMs的8,011个实时对话，探讨人类反馈收集的方法、领域、人员和目标，并通过对话多样性、偏好多样性和福利结果等案例研究证明了PRISM的有用性，提倡更广泛的参与AI开发和更包容的技术设计。

Apr, 2024

大型语言模型人类偏好学习综述

本综述从以偏好为中心的角度回顾了探索大型语言模型（LLMs）的人类偏好学习的进展，包括偏好反馈的来源和格式，偏好信号的建模和使用，以及对齐LLMs的评估。

Jun, 2024

朝着大型语言模型偏好学习的统一视角：一项调查

本研究针对大型语言模型在与人类偏好对齐方面的复杂性问题，提出了一种统一的研究框架，旨在增强对现有偏好对齐策略的理解。通过将现有策略分解为模型、数据、反馈和算法四个组成部分，研究展示了不同方法间的关联性，并提供了丰富的实例以帮助读者理解。同时，揭示了未来研究方向与挑战。

Sep, 2024

大型语言模型偏好学习的统一视角：综述

本论文针对大型语言模型（LLM）与人类偏好的对齐问题展开研究，指出现有研究方法多样且复杂，限制了偏好对齐的发展。我们提出了一种统一框架，将偏好学习的策略分解为模型、数据、反馈和算法四个组成部分，从而深入理解现有的对齐算法并探索未来的研究方向。

Sep, 2024

面向大型语言模型的偏好学习统一视角：一项综述

本研究针对大型语言模型（LLMs）与人类偏好对齐中的方法复杂性和研究分散性问题，提出了一种统一的框架，通过将现有的偏好学习策略分解为模型、数据、反馈和算法四个组件，深入分析现有的对齐算法。此研究不仅增进了对不同策略之间关系的理解，也为未来的研究提供了新的方向，促进了跨方法的优势互补。

Sep, 2024