- 通过样本操作提高安全强化学习的效率
通过样本操作提高安全强化学习的效率,动态调整采样过程以最大程度地最小化成本和最大化奖励之间的平衡,ESPO 理论上保证了收敛性、优化稳定性和改善样本复杂性界限。在 Safety-MuJoCo 和 Omnisafe 基准测试中,ESPO 在奖 - ICML安全强化学习的一致性可行性表征学习
在安全强化学习领域,通过结合表示学习和可行性导向目标,我们引入了一种名为 Feasibility Consistent Safe Reinforcement Learning(FCSRL)的新框架,以从原始状态中提取与安全相关的信息从而增强 - 学习的非马尔可夫安全性约束下的安全强化学习
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果 - 学习控制屏障函数及其在强化学习中的应用:综述
通过综合回顾现有文献,研究使用控制屏障函数的安全强化学习方法,并探索自动学习控制屏障函数的各种技术,以提高强化学习在实际机器人应用中的安全性和效能。
- 安全强化学习中的政策分叉
我们的研究首次发现安全强化学习中的策略分叉现象,并运用拓扑分析严格证明了其存在。为了训练这种分叉策略,我们提出了一种名为多模态策略优化(MUPO)的安全强化学习算法,该算法利用高斯混合模型分布作为策略输出,成功实现了对分叉策略的学习,并确保 - 多约束安全强化学习与目标抑制在安全关键应用中的应用
通过适应性抑制任务奖励最大化目标的方法,我们提出了目标抑制(Objective Suppression)的创新方法,以解决具有多个约束的安全强化学习任务所面临的挑战,在两个多约束安全领域进行了基准测试,包括一个自动驾驶领域,其中任何不正确的 - 安全优化增强学习通过多目标策略优化
基于多目标策略优化框架的新型无模型安全强化学习算法引入,通过环境奖励函数和安全评论家对策略进行优化,以实现在不违反约束条件的情况下同时达到最佳和安全性。该算法通过理论分析提出了收敛策略的安全性保障条件,并引入了一个攻击参数,允许对所述权衡进 - 自适应原始对偶方法的安全强化学习
在这篇论文中,我们提出了自适应原始 - 对偶(APD)方法用于安全强化学习(SRL),并分析和评估了该算法在实际环境中的性能。结果表明,与常数学习率情况相比,实际 APD 算法在训练过程中具有更好的性能和更稳定的训练结果。
- 利用近似模型防护在连续环境中实现概率安全保证
本文介绍了在连续环境中实现安全强化学习的方法,使用了适用于连续环境的近似基于模型的屏蔽 (AMBS) 框架,并提出了两种新的惩罚技术来改进策略梯度的稳定收敛性。
- 使用自由形式的自然语言约束和预训练语言模型的安全强化学习
利用预训练语言模型的先验知识,我们的方法可以在遵守给定约束条件的情况下,理解复杂约束并学习安全策略,而无需任何阶段的真实成本。
- 安全的即时约束强化学习:激进探索的作用
该研究考察了具有线性函数逼近和在每一步都具有严格瞬时约束条件下的安全强化学习(safe RL)。本文提出了一种算法 LSVI-AE,针对成本函数是线性的情况,达到了 $\tilde {\cO}(\sqrt {d^3H^4K})$ 的遗憾值和 - 强化学习中的风险建模:一项文献综述
通过系统文献绘图来描述安全强化学习中的风险类型和多个应用领域,为未来安全强化学习研究提供详细的风险账户。
- 张量再生核希尔伯特空间中的安全强化学习
本文探讨了在部分可观察环境下的安全强化学习问题,旨在实现安全可达性目标。通过提出一种基于随机模型的方法,在面对未知系统动态和部分观测环境时,几乎确定地保证了强化学习的安全性。利用预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表 - 高效的离线安全强化学习:使用信任区域条件风险
本论文提出了一种基于风险约束的安全强化学习方法,并通过引入适应性信任区约束以减少分布偏移的影响,解决了在复杂环境中实现优异性能并快速满足安全约束的问题。
- 安全体育场:统一的安全强化学习基准
这篇论文介绍了一个名为 Safety-Gymnasium 的环境套件和一个名为 Safe Policy Optimization 的算法库,其中包含了 16 种最先进的安全强化学习算法,旨在促进安全性能的评估和比较,并推动强化学习在更安全、 - Safe RLHF: 安全的强化学习从人类反馈中
利用 Safe Reinforcement Learning from Human Feedback(Safe RLHF)算法,通过训练单独的奖励和成本模型,实现了对大型语言模型(LLMs)在帮助性和无害性上进行人类价值调整,以最大化奖励函 - 复杂和连续状态行动空间的专用深度残差策略安全强化学习控制器
传统控制器有局限性,深度强化学习通过在环境中进行探索来学习最优控制策略,为安全关键环境提出专门的深度残差策略安全强化学习方法,并在 Tennessee Eastman 过程控制中进行验证。
- 强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用
这项研究将强化学习与轨迹优化相结合,以管理最大化奖励与遵守安全约束之间的权衡,并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能,通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。
- 多功能安全强化学习的约束条件策略优化
我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架,通过引入 Versatile Value Estimation (VVE) 和 Conditio - 引导式在线蒸馏:通过离线演示提升安全强化学习
安全增强学习旨在找到在满足成本约束的同时实现高回报的策略。本研究提出了一种离线到在线的安全增强学习框架,通过引导在线安全增强学习训练,将离线决策变压器策略提炼为轻量级策略网络,在挑战性的安全关键场景中成功解决决策问题。