基于上下文聚合的情境道德价值调整
利用一个名为识别价值共鸣(RVR)的 NLP 模型,将 WVS 调查的价值观与生成的 LLMs 文本进行比较,发现 LLMs 显示出西方中心主义的价值偏见,高估了非西方国家的保守性,对非西方国家的性别表达不准确,并将年长人口描绘为更具传统价值。
Dec, 2023
基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景,评估模型与人类价值观的一致性,并探测出长尾风险。
May, 2024
本文介绍了 ETHICS 数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Aug, 2020
探讨实现 AI 系统中的终身超对齐所面临的挑战,特别是大型语言模型(LLMs);超对齐是一个理论框架,旨在确保超级智能 AI 系统按照人类的价值观和目标行动;我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变,因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性;通过分析两个不同的例子,我们阐明 LLM 面对训练数据的限制,无法与当代人类价值观和情景相契合;最后,本文探讨了解决和可能减轻这种对齐差异的潜在策略,提出了追求更适应和响应性的 AI 系统的路径。
Mar, 2024
本研究提出了 A2EHV,一种自动化对齐评估方法,旨在提高大型语言模型的价值合理性,并在异构价值系统下进行评估,结合社会心理学中的社会价值取向框架,对大型语言模型的价值合理性进行评估,观察到大型模型更倾向于与中性价值对齐。
May, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI 开发者和伦理学家可以更好地设计和评估 AI 系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
该研究探讨人工智能对齐问题,阐述了一个包含四个层次(个人、组织、国家和全球)的框架,分别考虑这些层次的价值观对人工智能的影响,以及这些价值观之间相互影响的方向,最后通过介绍 AI 内容审核这个案例,展示了该框架的应用。
Jan, 2023
大模型在理解、生成和操作信息和内容方面极大地提升了人工智能的能力,但是随着这些模型越来越广泛地融入日常生活,它们固有的伦理价值观和潜在偏见给社会带来了无法预见的风险。本文概述了与大模型相关的风险和挑战,调查了现有的人工智能伦理准则,并研究了这些模型局限性带来的伦理影响。从规范伦理学的角度出发,我们提出了对最新规范准则的重新评估,强调学术界合作努力在建立统一而普适的人工智能伦理框架方面的重要性。此外,我们利用道德基础理论来调查当前主流大型语言模型的道德倾向,分析了现有的对齐算法,并概述了在对齐这些伦理价值观时遇到的独特挑战。为了应对这些挑战,我们引入了一个用于对齐大模型伦理价值观的新概念范式,并讨论了对齐准则、评估和方法的有前途的研究方向,代表了跨学科构建符合伦理要求的人工智能的初步步骤。
Oct, 2023