语言模型能否推理个体化的人类价值观和偏好？

Oct, 2024

语言模型能否推理个体化的人类价值观和偏好？

Can Language Models Reason about Individualistic Human Values and Preferences?

Liwei Jiang, Taylor Sorensen, Sydney Levine, Yejin Choi

TL;DR本研究解决了AI系统在处理多样性需求时常见的对个体差异平滑化和刻板化的问题。通过引入IndieValueCatalog数据集，研究了语言模型在个体化价值推理中的局限性，发现其准确率仅为55%到65%。该研究表明，仅通过人口统计信息无法准确描述个体价值，同时提出了IndieValueReasoner以增强模型的个体价值推理能力。

Abstract

Recent calls for pluralistic alignment emphasize that AI systems should address the diverse needs of all people. Yet, efforts in this space often require sorting people into fixed buckets of pre-specified Diversity-defining dimensions (e.g., demographics, personalities, communication s

发现论文，激发创造

大型语言模型的异构价值评估

本研究提出了A2EHV，一种自动化对齐评估方法，旨在提高大型语言模型的价值合理性，并在异构价值系统下进行评估，结合社会心理学中的社会价值取向框架，对大型语言模型的价值合理性进行评估，观察到大型模型更倾向于与中性价值对齐。

May, 2023

从指令到内在人类价值观——大型模型目标同步调查

通过综合调查现有工作的不同对齐目标并追踪其演变路径，本文揭示了从基本能力到价值取向的目标转变，表明内在人类价值可能是提升大型语言模型对齐目标的关键，进一步讨论了实现此内在价值对齐的挑战，并提供了一系列可用资源以支持未来对大型模型对齐的研究。

Aug, 2023

价值万花筒：为人类价值观、权利和责任与人工智能进行互动

人类价值观和价值多元论对于人类决策至关重要。为了更好地反映价值多元论，我们介绍了ValuePrism数据集和Kaleido模型，它们可以生成、解释和评估特定语境下人类价值观、权利和责任的相关性和支持程度。我们的工作希望明确人类决策背后的隐含价值观，并引导AI系统做出更符合这些价值观的决策。

Sep, 2023

价值基点：将大型语言模型映射到基本人类价值的多维谱系

本研究提出了一种基本价值对准范式，并在基本价值维度上构建了一个价值空间，通过识别潜在价值将所有大型语言模型的行为映射到该空间，以解决对其负有责任的发展中的三个挑战。

Nov, 2023

多元一致性路线图

AI系统的多元对齐是一个重要问题，本文提出了一个在语言模型中测试多元对齐的路线图，并通过多个实验和其他工作的经验证明了当前的对齐技术在多元对齐方面存在局限性，并强调了对多元对齐的进一步研究的需求。

Feb, 2024

AI 推理中的人类价值建模

构建与人类价值观相符的人工智能系统是当前面临的重要挑战之一。本研究提出了一个形式化模型，以明确计算地表示人类价值观，为基于人类价值观的人工智能推理提供了理论基础，并在实际应用中验证了该模型的适用性。通过这种自动推理人类价值观的能力，不仅能解决价值观一致性问题，还有助于设计支持个人和社区做出更明智、与价值观相符的决策的人工智能系统。

Feb, 2024

人类价值是什么，我们如何使人工智能与之相吻合？

通过道德图表法，本文研究如何合成不同的人类价值观输入，以对齐语言模型的行为，并通过在500名代表性美国人身上试验证明了其有效性。

Mar, 2024

超越人类规范：通过跨学科方法揭示大型语言模型的独特价值

基于心理学方法研究，该论文通过提出ValueLex框架，重建了大型语言模型（LLMs）的独特价值体系，并鉴定出了三个核心价值维度：能力、品格和诚信。同时，他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向，从而为未来的人工智能对齐和规范铺平了道路。

Apr, 2024

价值指南针：人类与人工智能对齐的基本价值框架

本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论，对人类与语言模型的价值对齐进行了测量，发现存在潜在的风险性不对齐，强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。

Sep, 2024

强偏好影响价值对齐的稳健性

本文研究了价值对齐的稳健性，揭示偏好模型对偏好变化的敏感性。我们发现，在Bradley-Terry和Plackett-Luce模型中，某些偏好的概率会随着其他偏好的变化而显著改变，尤其是在主导偏好的情况下。这一发现对AI系统的价值对齐的稳健性和安全性具有重要影响。

Oct, 2024