在强化学习应用于现实系统时,确保安全是一个关键的挑战。因此,我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法,用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件,将安全验证降低到标准强化学习任务。利用幻想输入的概念,我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后,在朝向备份策略的滚动过程中,每个时间步骤最小调整名义策略,以保证安全恢复。我们提供了正式的安全保证,并在实验中证明了我们方法的有效性。
Jul, 2022
我们提出了一个采用深度强化学习的框架,通过相干畸变风险度量考虑模型不确定性的风险规避观点,并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题,并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。
Jan, 2023
本文介绍了分布鲁棒监督学习(DRSL)的概念和其与 f - 散度的关系,DRSL 可以最小化对抗重加权训练损失来明确考虑最坏情况的分布移位,并在分类情景下进行了分析。研究发现 DRSL 恰好可以匹配给定的训练分布,提出了简单的 DRSL 以克服这种悲观主义,并且经验性地证明了其有效性。
Nov, 2016
本研究通过基于强对偶性的算法框架,在环境不确定性的一个类别中提出了第一个高效且可证明的解决方法,来解决分布鲁棒受限强化学习(DRC-RL)问题,该问题旨在最大化预期奖励,同时受制于环境分布变化和约束条件。
Jun, 2024
本文提出了一种基于深度神经网络优化器的约束优化求解方法,将约束作为 Lyapunov 函数并在策略参数更新动态上施加新的线性约束以达到约束满足的效果,并改进了现有方法在优化策略时的瓶颈,其在数值优化和避障导航等场景中体现了出色的性能。
Jun, 2020
提出了一个理论框架,通过捕捉非线性系统中的状态和动作相关的不确定性,综合应用稳健模型预测控制(RMPC)和强化学习(RL),以合成非线性系统的安全过滤器,其计算复杂度较低且具有持久的鲁棒安全保证。
Nov, 2023
本文着重于在满足安全约束条件的同时在线学习系统动态模型。 使用贝叶斯学习从系统状态的流式观察中获得系统动态的分布,并通过指定控制障碍函数上的机会约束确保高概率的系统行为和安全性。
Dec, 2019
本研究介绍了一种新的分布鲁棒学习方法,该方法通过加入无标签数据以限制敌手从指定分布中选择数据,可以有效地进行分类,并提出了一个分布鲁棒的版本,可应用于主动学习。在 14 个真实数据集上的结果表明,该算法往往在传统方法无法提供良好结果的情况下表现出色。
本文提出了一种基于风险规避的探索策略,使用分布式鲁棒策略迭代方案来确保学习过程中的安全,并在连续状态 / 操作空间中扩展了此方法,得出了分布式鲁棒软演员 - 批评家算法的实用算法。
Feb, 2019
本文提出了一种基于信任区域方法的安全分布式强化学习方法,包括针对分布式评论家的估计偏差的降低,用 Q 函数表示的信任区域方法的新代理以及从不安全的初始代理找到满足所有约束的代理的梯度集成方法,实验表明,该方法表现出最小的约束违规,同时实现了高收益。