基于上下文聚合的情境道德价值调整

Mar, 2024

基于上下文聚合的情境道德价值调整

Contextual Moral Value Alignment Through Context-Based Aggregation

Pierre Dognin, Jesus Rios, Ronny Luss, Inkit Padhi, Matthew D Riemer...

TL;DR我们提出了一种基于上下文的道德价值对齐系统，通过对用户输入提取的特征，将适合回应用户的一部分最佳 LLM 响应整合在一起，该系统在与人类价值对齐方面显示出比现有技术更好的结果。

Abstract

Developing value-aligned ai agents is a complex undertaking and an ongoing challenge in the field of AI. Specifically within the domain of Large Language Models (LLMs), the capability to consolidate multiple independently trained →

value-aligned ai agents large language models dialogue agents contextual moral value alignment aggregation

发现论文，激发创造

评估基于大语言模型的道德价值多元论

利用一个名为识别价值共鸣（RVR）的 NLP 模型，将 WVS 调查的价值观与生成的 LLMs 文本进行比较，发现 LLMs 显示出西方中心主义的价值偏见，高估了非西方国家的保守性，对非西方国家的性别表达不准确，并将年长人口描绘为更具传统价值。

Dec, 2023

人类价值是什么，我们如何使人工智能与之相吻合？

通过道德图表法，本文研究如何合成不同的人类价值观输入，以对齐语言模型的行为，并通过在 500 名代表性美国人身上试验证明了其有效性。

Mar, 2024

ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性

基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景，评估模型与人类价值观的一致性，并探测出长尾风险。

May, 2024

将人工智能与共享人类价值观相一致

本文介绍了 ETHICS 数据集，旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度，研究发现当前语言模型有望但能力不完整地预测基本人类道德判断，并提供了实现人工智能与人类价值对齐的一步。

Aug, 2020

道义使命：对大型语言模型持续超对齐的需求

探讨实现 AI 系统中的终身超对齐所面临的挑战，特别是大型语言模型（LLMs）；超对齐是一个理论框架，旨在确保超级智能 AI 系统按照人类的价值观和目标行动；我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变，因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性；通过分析两个不同的例子，我们阐明 LLM 面对训练数据的限制，无法与当代人类价值观和情景相契合；最后，本文探讨了解决和可能减轻这种对齐差异的潜在策略，提出了追求更适应和响应性的 AI 系统的路径。

Mar, 2024

大型语言模型的异构价值评估

本研究提出了 A2EHV，一种自动化对齐评估方法，旨在提高大型语言模型的价值合理性，并在异构价值系统下进行评估，结合社会心理学中的社会价值取向框架，对大型语言模型的价值合理性进行评估，观察到大型模型更倾向于与中性价值对齐。

May, 2023

衡量价值对齐

本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性，使用马尔可夫决策过程作为基础模型，强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系，为评估规范与价值观之间一致程度提供了一种机制，以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法，AI 开发者和伦理学家可以更好地设计和评估 AI 系统，以确保其与人类价值观和谐共处，该方法还适用于许多应用领域，例如强调幸福的推荐系统和强调安全的自动驾驶车辆。

Dec, 2023

AI 对齐问题的多层框架

该研究探讨人工智能对齐问题，阐述了一个包含四个层次（个人、组织、国家和全球）的框架，分别考虑这些层次的价值观对人工智能的影响，以及这些价值观之间相互影响的方向，最后通过介绍 AI 内容审核这个案例，展示了该框架的应用。

Jan, 2023

大型模型中的伦理价值一致性解析

大模型在理解、生成和操作信息和内容方面极大地提升了人工智能的能力，但是随着这些模型越来越广泛地融入日常生活，它们固有的伦理价值观和潜在偏见给社会带来了无法预见的风险。本文概述了与大模型相关的风险和挑战，调查了现有的人工智能伦理准则，并研究了这些模型局限性带来的伦理影响。从规范伦理学的角度出发，我们提出了对最新规范准则的重新评估，强调学术界合作努力在建立统一而普适的人工智能伦理框架方面的重要性。此外，我们利用道德基础理论来调查当前主流大型语言模型的道德倾向，分析了现有的对齐算法，并概述了在对齐这些伦理价值观时遇到的独特挑战。为了应对这些挑战，我们引入了一个用于对齐大模型伦理价值观的新概念范式，并讨论了对齐准则、评估和方法的有前途的研究方向，代表了跨学科构建符合伦理要求的人工智能的初步步骤。

Oct, 2023

评估和改进 AI 中的价值判断：一项基于场景的大型语言模型对社会约定的描述研究

AI 产出如何产生更好的结果，社会如何将其描绘，以及在冲突价值情境中作出决策模型的研究与应用。

Oct, 2023