自然发生故事原则预测的机器学习方法

Nov, 2022

自然发生故事原则预测的机器学习方法

Machine Learning Approaches for Principle Prediction in Naturally Occurring Stories

Md Sultan Al Nahian, Spencer Frazier, Brent Harrison, Mark Riedl

TL;DR本文探讨了利用机器学习模型对故事数据进行规范原则预测的任务，研究表明，单独的原则可以被分类，但 ' 道德准则 ' 的不确定性对于人类和自主系统来说都是一个挑战。

Abstract

value alignment is the task of creating autonomous systems whose values align with those of humans. Past work has shown that stories are a potentially rich source of information on →

value alignment autonomous systems human values normative principle prediction machine learning models

发现论文，激发创造

从故事中学习规范：价值对准代理的先验

通过观察自然故事中的社会规范来学习价值对齐的先验知识，并使用机器学习模型判断自然语言中一个情境是否符合价值对准，同时寻求在新任务中的迁移表现。

Dec, 2019

使分类器能够明确地与人类价值观保持一致

该研究介绍了一个基于明确人类价值观的价值对齐分类框架，并从大规模语言模型中提炼价值对齐知识以构建分类器，结果表明使用显式人类价值观分类器能提高人工智能的包容性和可解释性。

Oct, 2022

人工智能，价值观和对齐

探讨人工智能对齐问题所涉及的哲学问题，明确目标并提出合理的原则方法来解决技术和规范的问题，从而达成公平的人工智能对齐。

Jan, 2020

将人工智能与共享人类价值观相一致

本文介绍了 ETHICS 数据集，旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度，研究发现当前语言模型有望但能力不完整地预测基本人类道德判断，并提供了实现人工智能与人类价值对齐的一步。

Aug, 2020

学习人类化的表示以实现学习人类价值

构建与人类价值和目标相一致的 AI 系统，防止造成伤害或违反社会可接受行为的标准是一个重要课题，本研究通过研究伦理学作为价值一方面并训练多个 ML 代理，研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。

Dec, 2023

衡量价值对齐

本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性，使用马尔可夫决策过程作为基础模型，强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系，为评估规范与价值观之间一致程度提供了一种机制，以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法，AI 开发者和伦理学家可以更好地设计和评估 AI 系统，以确保其与人类价值观和谐共处，该方法还适用于许多应用领域，例如强调幸福的推荐系统和强调安全的自动驾驶车辆。

Dec, 2023

道德故事：关于规范、意图、行动及其后果的情境推理

探究自然语言生成模型作为行为先验条件用于社交环境中行为的假设生成，结合 Moral Stories 数据集研究并提出解码策略，通过综合专家模型实现优质行为生成、后果和规范生成。

Dec, 2020

人类价值是什么，我们如何使人工智能与之相吻合？

通过道德图表法，本文研究如何合成不同的人类价值观输入，以对齐语言模型的行为，并通过在 500 名代表性美国人身上试验证明了其有效性。

Mar, 2024

使用规范先验训练价值对齐强化学习智能体

通过训练一种双重奖励信号的智能体，其中包括标准任务性能奖励和一个从价值对齐的先前模型派生的规范行为奖励，我们介绍了一种价值对齐的强化学习方法，并展示了如何使用策略塑形技术平衡这两种奖励信号，以便产生既有效又更规范的策略，在三个互动的基于文本的世界中对其进行了测试。

Apr, 2021

概念对齐作为价值对齐的前提条件

人工智能系统与人进行安全可靠互动所必需的价值对齐依赖于概念对齐，即代理需要与人类相互对齐，以在情境中成功对齐其价值观。本研究通过对逆强化学习环境中的概念对齐问题进行正式分析，并描述了一种有助于减少价值观不对齐的方法，该方法通过同时推理一个人的概念和价值观来最小化这类故障模式。此外，本研究通过人类参与者的实验结果表明，人类在意图行为时会考虑代理使用的概念，符合我们的联合推理模型。

Oct, 2023