关于一致和冲突价值观
人工智能系统与人进行安全可靠互动所必需的价值对齐依赖于概念对齐,即代理需要与人类相互对齐,以在情境中成功对齐其价值观。本研究通过对逆强化学习环境中的概念对齐问题进行正式分析,并描述了一种有助于减少价值观不对齐的方法,该方法通过同时推理一个人的概念和价值观来最小化这类故障模式。此外,本研究通过人类参与者的实验结果表明,人类在意图行为时会考虑代理使用的概念,符合我们的联合推理模型。
Oct, 2023
代理人基于 STRIPS 形式化提出行动框架,并利用基于价值的形式推理 (VFR) 对行动进行表达,从而提供一种计算框架来实现一种满足取舍、多元化、以行动为基础和偏好的后果伦理学。
Mar, 2024
本文提出两个本体模块 FOLK 和 That's All Folks,用于辅助主流价值理论识别在日常互动中扮演重要角色的价值,以深入了解社会动态和个人认知行为,同时利用基于框架的方法进行文本上的自动检测价值。
Mar, 2023
提出了一种贝叶斯方法来解释认知科学中广泛的说明价值,并阐明了心理学、统计学和科学哲学中的核心价值如何从一个公共数学框架中出现。同时,这个框架还可以用来重新解释推动阴谋论、妄想和极端意识形态的说明副产品。
Jun, 2020
通过建立新的注释方案并发布新数据集,我们构建了一个分类器来预测个体在特定情境中对行为的观感是否正确,并研究了人与作者之间关系对冲突内容的影响,这对于理解冲突和社交规范具有重要意义。
Aug, 2022
在线讨论中存在分歧,个人价值观的差异是在线讨论分歧的指示;我们通过先进的模型估计在线讨论的价值观,并将其聚合成价值观档案,发现价值观档案的差异与特定情况下的分歧相关,并发现将价值信息纳入协议预测可以提高性能。
Oct, 2023
通过与参与者互动并利用参与者的动机值来估计其价值偏好,解决参与者选择和动机之间的不一致性,并通过直接与参与者互动的消歧策略改善个体价值偏好的估计。
Feb, 2024
通过社会科学根植的正式概念框架,系统、集成和跨学科地探究人类价值如何支持设计道德人工智能,从而解决价值对齐问题和其他相关的挑战,如人工智能学习人类价值观、将个人价值观聚合到群体中和设计计算机机制来处理价值观。
May, 2023