可证明符合性引导的强化学习

Mar, 2022

Reinforcement Learning Guided by Provable Normative Compliance

Emery Neufeld

TL;DR本文展示了一种使用利用现有的 normative supervisor 框架的方法，通过 MORL 技术以平衡非道德目标和避免违规的道德目标，在自主代理中实现安全、道德或合法行为，且不受惩罚强度大小的影响。

Abstract

reinforcement learning (RL) has shown promise as a tool for engineering safe, ethical, or legal behaviour in autonomous agents. Its use typically relies on assigning punishments to state-action pairs that constitute unsafe or unethical choices. Despite this assignment being a crucial s

reinforcement learning normative supervisor multi-objective rl punishment assignment ethical behavior

发现论文，激发创造

MORAL：通过多目标强化主动学习将人工智能与人类规范对齐

我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法，通过维护标量化权重的分布，交互式地调整深度强化学习代理向各种偏好的方向发展，从而将社会规范的不同展示组合成帕累托最优策略，并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证，并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步，弥合了当前奖励学习和机器伦理文献之间的差距。

Dec, 2021

道德不确定性下的强化学习

该研究论文提出两种训练方法实现不同的期望，通过在简单环境中训练智能体在道德不确定性下行动，从而促进具有道德能力的代理人的进展，并突显强化学习对道德哲学的计算基础的潜力。

Jun, 2020

朝着具有社会和道德意识的强化学习智能体：利用 LLM 进行奖励设计

通过利用大规模语言模型（LLM）对道德和社会规范的理解，本研究评估了语言模型作为直接奖励信号的能力，并通过与人类反馈对比来展示语言模型的结果。

Jan, 2024

无伤害：一种针对安全强化学习的对比方法

通过对学习策略与默认的安全策略进行比较，我们提出了一种对反事实伤害进行约束的方法，在考虑不确定性和复杂环境表示的基础上实现了学习更安全策略的目的。

May, 2024

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

使用多智能体强化学习对社会困境中的道德选择建模

该文探讨了将道德选择嵌入智能系统的重要性，提出了使用强化学习设计奖励结构以探究道德问题，并在三种社交困境游戏中分析了不同类型的道德如何影响智能体的行为，探讨了这些发现对于智能和混合人工智能社会的发展的影响。

Jan, 2023

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

使用规范先验训练价值对齐强化学习智能体

通过训练一种双重奖励信号的智能体，其中包括标准任务性能奖励和一个从价值对齐的先前模型派生的规范行为奖励，我们介绍了一种价值对齐的强化学习方法，并展示了如何使用策略塑形技术平衡这两种奖励信号，以便产生既有效又更规范的策略，在三个互动的基于文本的世界中对其进行了测试。

Apr, 2021

使用实际因果的道德强化学习

提出了一种基于因果道德的在线强化学习方法，并给出了应用该方法解决道德困境的案例，该方法可以使代理程序在学习决策时考虑是否造成伤害，更好地符合我们的道德判断。

May, 2022

一种低成本的伦理塑造方法，用于设计强化学习智能体

提出了一种低成本、易于实现的策略，使强化学习代理能够具备行为伦理学能力，基于人类行为的伦理模式，将人类政策与强化学习政策相结合，以实现目标任务，同时避免违反伦理准则。

Dec, 2017