- 自主导航中深度强化学习的安全约束评估
此研究比较了两种可学习导航策略(安全和不安全),表明安全策略能够在训练过程中生成具有更大间隙(与障碍物之间的距离)的轨迹,减少碰撞,且不影响整体性能。
- 面向离散和连续强化学习的安全任务组合
本文基于布尔组合的模式,探究了学习任务的组成安全约束方面,在间格世界中运用价值迭代、在图像观察的网络中应用 Deep Q-Network (DQN),在连续 - 观察与连续 - 行动的子弹物理环境下应用 Twin Delayed DDPG - ICML约束反向强化学习中的可辨识性和泛化性
研究提出了一种强化学习的理论框架,旨在解决设计适当的奖励函数和保证学习策略的安全性两大挑战。文章从凸解析角度扩展了奖励可识别性和泛化性等方面的研究,并在约束马尔可夫决策过程中证明了真实奖励需要在常数范围内确定才能确保泛化到新的转移模型和约束 - 具有通用效用的安全多智能体强化学习可扩展原始 - 对偶演员 - 评论家方法
本文研究安全的多智能体强化学习方法,通过提出基于原始 - 对偶方法、阴影奖励和 k-hop 邻居截断等策略,解决了多智能体行动 - 状态空间呈指数级增长以及安全约束等问题,并通过数值实验验证了算法的有效性。
- 具有未知时间约束的安全强化学习策略联合学习
提出了一种结合逻辑约束强化学习算法和进化算法的框架,用于在不确定或未明确定义安全约束的环境中并发地学习安全约束和最优 RL 策略,并且该框架以理论保证为支撑,成功地在 grid-world 环境中识别出可接受的安全约束和 RL 策略,以及证 - 基于灵活约束的层次强化学习优化
该论文主要研究通过约束条件解决具有复杂安全约束的长期决策问题,提出了一种结合高级有约束规划代理和低级目标条件强化学习代理的机制,能够处理成本分布的约束,并在实验中验证了其实用性。
- 机会约束多智能体强化学习中的云计算合作超额订阅学习
本文针对云服务商超额订阅资源的使用问题,提出了一种基于概率约束优化和多智能体强化学习的超额订阅策略,实验表明该方法可以在不同安全约束条件下提高资源利用率 (20%~86%)。
- 安全覆盖控制的近似最优多智能体学习
本论文提出了一种条件线性子模覆盖函数,用于多智能体覆盖控制问题中的密度学习和保证智能体的安全性,并开发了 MacOpt 和 SafeMac 算法来解决部分可观察性导致的勘探 - 开发困境,以及多智能体带安全探索的覆盖问题,实证研究表明 Sa - 安全贝叶斯优化的元学习先验
本文提出一种基于元学习的数据驱动方法,以从离线数据中元学习优化安全贝叶斯优化的先验知识,通过经验不确定度度量和前沿搜索算法选择符合安全限制的先验范围,加速了安全 BO 方法的收敛速度并保持了安全。
- 指导式安全射击:基于模型强化学习的安全约束
本文介绍了一种基于模型的强化学习方法 Guided Safe Shooting (GuSS),可以学习对系统进行控制,并在保证安全的前提下探索状态空间,从而避免危险情况的发生,并减少与真实系统的交互次数。
- ICLR关于在观测扰动下安全强化学习的鲁棒性
本文研究了安全强化学习中观测对抗攻击的安全性和鲁棒性,并提出了两种新方法以最大化代价或奖励来攻击目标,同时提出了一种鲁棒性训练框架。
- ICML可达性约束强化学习
本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题,并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中,RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。
- SAAC: 基于扮演者 - 评论者对抗博弈的安全强化学习
本文提出了一种利用最大熵 RL 和安全性对抗指导的 SAAC 框架,能够有效解决在现实世界系统中,风险或安全性是一个约束的问题,同时它也能够满足不同的安全性标准。
- MLNav: 学习在火星地形上安全导航
本研究提出了一种利用机器学习增强路径规划的方法,能够在完全考虑安全约束的前提下提高路径规划的效率并减少计算成本,实验证明该方法可以适用于在复杂环境中操作的资源受限的系统,例如在火星上导航的探测车。
- ICMLSaute RL: 使用状态增广实现近乎绝对安全的强化学习
Saute MDP can remove safety constraints by augmenting state-space and reshaping objective, allowing for policy generaliz - AAAI通过原始对偶方法实现有约束强化学习的零约束违规
该研究提出了一种保守随机原始 - 对偶算法 (CSPDA),用于解决基于约束马尔可夫决策过程 (CMDP) 的强化学习问题,该算法能够在零约束违规的情况下实现 ε- 最优累积奖励,并提供比现有算法更有效率的复杂度。
- ICML基于约束惩罚的 Q-learning 算法用于安全离线强化学习
本研究探讨了在仅使用离线数据的情况下学习最大化长期收益的策略,同时满足安全性约束的安全离线强化学习问题,提出了基于约束惩罚的 Q 学习算法来解决该问题,并且在多个基准任务中进行了实验验证,表明该算法在数据效率和性能方面都优于其他基线算法。
- 基于约束的强化学习的简单无回报方法
本文探讨奖励自由强化学习和受限制的强化学习之间的联系,在标记 MDP 设置中,我们提出了一种简单的元算法,利用现有的奖励自由 RL 解算器,对受限制的强化学习问题进行直接求解, 在现有结果的基础上匹配最佳结果,同时在线性函数近似下,我们直接 - ICML基于优势干预的安全强化学习
提出了一个新的算法 SAILR,该算法使用基于优势函数的干预机制在训练期间保持代理的安全,并使用为无约束 MDP 设计的现成强化学习算法来优化代理的策略。在使用实验证明了该算法在训练和部署期间都具有较强的安全性和良好的策略表现。
- ICML受限马尔可夫决策过程中安全的强化学习
该研究提出了一种名为 SNO-MDP 的算法,它可以在未知安全约束条件下探索和优化马尔可夫决策过程,通过扩展安全区域来学习安全约束条件,进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。