安全感知的多智能体学徒学习

Jan, 2022

Safety-Aware Multi-Agent Apprenticeship Learning

Junchen Zhao

TL;DR本研究基于《Safety-Aware Apprenticeship Learning》的技术，提出了一种从单智能体学习框架到多智能体学习框架的延伸，并将这种延伸应用于逆强化学习模型，通过多智能体情景中的安全奖励函数提取，从而实现该模型的有效性和效率的提升。

Abstract

Our objective of this project is to make the extension based on the technique mentioned in the paper "safety-aware apprenticeship learning" to improve the utility and the efficiency of the existing reinforcement learnin

safety-aware apprenticeship learning reinforcement learning single-agent learning multi-agent learning inverse reinforcement learning

发现论文，激发创造

安全关键控制的自适应聚合

本文提出了一个自适应聚合框架，用于处理强化学习中的安全性问题。通过聚合多个源任务和目标任务来学习传输安全知识，并通过利用保障来分离提高任务绩效和减少约束违规的目标。实验结果表明，与几种基线相比，我们的算法可以实现更少的安全违规，同时显示更好的数据效率。

Feb, 2023

OmniSafe：用于加速安全强化学习研究的基础设施

本篇论文给出一个基础性安全强化学习框架，拥有不同领域跨越的一系列算法和重要的安全元素，以便更有效地研究 AI 安全和 SafeRL 算法实现。

May, 2023

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

具有控制理论安全保证的动态网络桥接的多智能体强化学习

通过整合多智能体增强学习和控制理论方法，本文提出了一种混合方法来解决安全关键环境中的复杂合作任务，包括一个新颖的设定更新算法以动态调整智能体位置以保持安全条件而不影响任务目标。实验证明相比传统的多智能体增强学习策略，该方法在任务性能和安全违规方面取得了显著优势。研究结果表明，将安全控制与学习方法相结合不仅增强了安全合规性，还实现了良好的任务目标性能。

Apr, 2024

强化学习与集成模型预测安全认证

本文提出了一种名为集成模型预测安全认证的新算法，该算法结合了基于模型的深度强化学习和基于管道的模型预测控制，通过计划对学习代理所采取的行动进行修正，使安全约束违规最小化。我们的方法旨在通过仅需要由安全控制器生成的离线数据，尽量减少对实际系统的先验知识。我们的结果表明，与可比较的强化学习方法相比，我们可以实现显著减少的约束违规。

Feb, 2024

安全体育场：统一的安全强化学习基准

这篇论文介绍了一个名为 Safety-Gymnasium 的环境套件和一个名为 Safe Policy Optimization 的算法库，其中包含了 16 种最先进的安全强化学习算法，旨在促进安全性能的评估和比较，并推动强化学习在更安全、更可靠和负责任的实际应用中的发展。

Oct, 2023

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

安全感知式学徒学习

本文提出了一种基于概率模型检查的学徒式学习算法，可确保在仍能保持性能的情况下实现安全性，将未知奖励函数视为状态特征的线性组合，并以概率计算树逻辑为基础的安全属性规范。

Oct, 2017

强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用

这项研究将强化学习与轨迹优化相结合，以管理最大化奖励与遵守安全约束之间的权衡，并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能，通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。

Oct, 2023