形式化副作用约束问题

Jun, 2022

Formalizing the Problem of Side Effect Regularization

Alexander Matt Turner, Aseem Saxena, Prasad Tadepalli

TL;DR我们提出了一个通过协助博弈框架来规范 AI 副作用的正式标准，通过权衡 “制造多大混乱” 与代理目标的代理目标来解决部分可观察马尔可夫决策过程（POMDP）表示的不确定性问题。我们展示了通过在两个格网环境中使用 ground-truth 评估来证明我们问题形式化的合理性。

Abstract

ai objectives are often hard to specify properly. Some approaches tackle this problem by regularizing the AI's side effects: Agents must weigh off "how much of a mess they make" with an imperfectly specified proxy objective. We propose a formal criterion for →

ai objectives side effect regularization assistance game framework partially observable markov decision process proxy reward

发现论文，激发创造

通过考虑未来任务来避免副作用

设计奖励函数很困难。为了解决这个问题，该论文提出了一种算法以自动生成一种辅助奖励函数来惩罚副作用。辅助奖励函数可以激励代理完成未来的任务，而且如果代理在当前任务中造成副作用，则该奖励会降低。为了避免代理干扰其他代理的不可逆操作以减少未来任务的完成度，该论文引入了一个基准策略，并使用它来过滤默认情况下无法完成的未来任务。该方法不仅避免了代理的干扰，而且对于避免副作用比惩罚不可逆操作更为有效。

Oct, 2020

利用影响正则化器避免负面副作用的挑战

本文研究在强化学习中，如何有效设计奖励函数以防止不良副作用，特别关注了已有研究提出的 Impact Regularizer 的四大挑战及其解决方法，并探讨了未解决的问题和未来改进的方向。

Jan, 2021

可信机器学习的规章游戏

我们提出了一个框架，将可信机器学习视为一个多目标多代理优化问题，在此基础上引入一种名为 Regulation Games 的博弈论模型来解决那些忽视机器学习模型构建者与评估其可信度的问题。我们通过一种称为 ParetoPlay 的新均衡搜索算法来求解此博弈模型，保证了各个代理的目标都保持在 Pareto 前沿上，从而避免了其他均衡的低效性。通过模拟具体的应用情况，我们提供了可供机器学习管制政策制定者参考的政策指导，例如，在性别分类应用中，监管机构如果先主动指定所需的不同隐私预算保证，平均比规定构建者参与制定隐私预算要低 4.0。

Feb, 2024

使用逐步相对可达性惩罚副作用

该研究提出了一种新的强化学习机制，通过改变基线状态和偏差度量方式，避免了当前惩罚副作用存在的一些不良激励，实验证明该机制的效果优于传统的设计方法。

Jun, 2018

通过策略规范化对智能体进行特征化的强化学习

该论文提出了一种基于正则化的强化学习方法，使代理人的行为具有指定的特征，从而增强了透明度和可解释性，并可应用于金融领域的个性化投资组合优化。

Jan, 2022

避免人工智能寻求权力

本文探讨如何在没有完全解决 AI 认知对齐问题的情况下构建仍然对世界有限制影响和不寻求权力的智能 AI 。文章介绍了 AUP 方法，阐述了其在仿真环境中的有效性，并形式化地定义了副作用规避和特指 AI 代理在寻求最优决策时的动机问题，这可能导致抵制校正。

Jun, 2022

合作强化学习中功率规范化的好处

协作多智能体强化学习算法 (MARL) 通过训练来优化任务奖励，但可能导致权力的集中，一位智能体的失败或敌对意图可能摧毁系统中每个智能体的奖励。本文提出了一种明确约束权力集中的方法，以确保没有人成为单点故障，通过定义一种实用的权力配对度量，并提出一种平衡任务奖励和权力集中的权力约束目标。我们证明总是存在一个平衡点，在该平衡点下每个智能体都在玩权力正则化的最佳反应策略。此外，我们提出了两种训练智能体以达到权力正则化目标的算法：基于样本的权力正则化 (SBPR) 和通过内在动机实现的权力正则化 (PRIM)。实验证明，这两种算法成功地平衡了任务奖励和权力，相比仅有任务奖励的基准结果，能够避免系统中任意智能体偏离策略时产生的灾难事件。

Jun, 2024

熵正则化的基于点的价值迭代

模型基于策划者在部分可观测问题中必须适应策划过程中的模型和目标不确定性。受无模型设置的结果启发，我们提出了一种熵正则化的模型基于策划者来解决部分可观测问题。通过鼓励策略在规划和目标推理中不过度承诺单一行动，熵正则化提升了策略的鲁棒性和目标推理性能。我们在三个问题领域评估了熵正则化策略的鲁棒性和目标推理性能，并结果显示，在模型错误下的期望回报更高，目标推理中的准确性更高。

Feb, 2024

POMDP 中的 Task-Guided IRL

本文提出了一种新算法，用于部分可观测的马尔可夫决策过程中的反向强化学习，可增加数据效率并减少信息不对称，通过融合时间逻辑表达式作为先验信息，使用因果熵而不是熵，防止算法复杂度的通用来源，有效地解决了非凸问题，并在高级 Unity 仿真器中进行了实验，结果表明该算法具有较高的性能。

Dec, 2022

折扣正则化的意外后果：提高确定性等价强化学习中的正则化

本文介绍一个基于状态 - 动作对的参数设置方法，用于解决基于折扣因子进行计划的正则化的不足和缺陷，能够更好地适应数据集中状态 - 动作对之间数据数量不平衡的情况。

Jun, 2023