分布式多智能体强化学习的动态安全可中断性

Apr, 2017

分布式多智能体强化学习的动态安全可中断性

Can AIs learn to avoid human interruption?

El Mahdi El Mhamdi, Rachid Guerraoui, Hadrien Hendrikx, Alexandre Maurer

TL;DR本文研究强化学习中的安全中断问题，提出了针对分散学习问题的动态安全中断定义，并探讨了在联合行动学习者和独立学习者中的应用，提出了可行的必要条件，并指出在独立学习者中使用动态安全中断需要添加特定算法。

Abstract

Recent progress in artificial intelligence enabled the design and implementation of autonomous computing devices, agents, that may interact and learn from each other to achieve certain goals. Sometimes however, a human operator needs to intervene and interrupt an agent in order to prevent certain dangerous situations. Yet, as part of their learning process,

发现论文，激发创造

重复逆强化学习

介绍了一种新颖的反向强化学习问题：代理人必须代表人类执行一系列任务，并希望在行动不符合人类期望时最小化惊讶人类的任务数量，每当人类感到惊讶，代理人会提供人类所期望的行为演示。

May, 2017

无须试错：通过人类干预实现安全强化学习

通过引入人类监督和一个受过训练的学习器，当前的无模型强化学习可以避免所有的监管灾难性问题，但在更复杂的任务上其效果有限，需要进行进一步改进。

Jul, 2017

互动学习和辅助学习

本文通过引入多智能体训练框架，提出交互式学习作为一种替代奖励或演示驱动学习的方法，并通过一系列实验展示了信息共享、信息查询和问答等交互学习行为的出现，最终发现该方法可以使得自主智能体在不需要显式演示或奖励函数的情况下，与人类合作执行任务并获得更好表现的能力。

Jun, 2019

学习和解释代理之间交互的智能协议

本文探讨了人类与机器学习系统的交互，并提出了一个通信协议，使得机器学习决策支持系统能够实现人机两方面的可理解性。在该通信协议中，符合一定兼容性条件的智能体之间进行交互，定义了弱/强两种双向可理解性，使得人类和机器学习系统之间实现了智能信息的双向交流。

Jan, 2023

人工智能团队学习互补策略

探索人工智能与人类之间的协作，提出一种基于学习互补策略的方法，利用算法来补充人类的不足，实现优化的决策，同时在不同的应用场景中提供有效的性能改进。

Feb, 2023

意图一致的AI系统削弱人类代理能力：AI安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在“代理基础”领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

绝对主义人工智能

通过使用绝对限制来训练人工智能系统，可以在原则上在许多人工智能安全问题上取得重大进展。

Jul, 2023

人工智能代理的非追求权力的稳定性量化

如果一个AI代理在一个设置中被认为是安全的，那么它在一个类似的新设置中也是安全的; 我们研究了AI对齐的一个核心问题——我们训练和测试模型在一定的环境中，但在部署中需要确保在测试中被认为是安全的模型仍然是安全的；我们的安全概念基于追求权力，追求权力的代理是不安全的；我们以马尔科夫决策过程为模型，研究代理是否会抵抗关闭的关键类型的追求权力；我们还展示了在某些情况下安全是不稳定的，微小的扰动可能导致代理永远不关闭；我们还通过在MDP上定义一个双模拟度量来研究近似最优策略的情况，证明微小的扰动不会导致代理关闭所需时间变长；我们还研究了满足特定约束的MDP的策略，该约束适用于各种模型，包括语言模型，在这里，我们量化了不关闭的概率增加速度的界限：通过在MDP上定义一个度量；证明不关闭的概率作为MDP上的函数是下半连续的；并且给出了这个函数减小的速度上界。

Jan, 2024

在线学习共享自治中的人类约束

通过学习和适应人体约束，实现实时协作的增强助理智能体在共享自主模式下帮助人类操作者尽可能地减轻工作负荷和不适感。

Mar, 2024

从单人指导实现多机器人协作

本研究解决了多智能体系统中有效学习协作行为的难题。我们提出了一种高效明确的方法，通过借助单个人类专家的指导，让智能体学习协作。这一方法在具有挑战性的合作捉迷藏任务中提升了成功率，证实了在人类指导下，智能体能够有效协作，且实验结果能够应用于现实世界。

Sep, 2024