基准引导的安全策略改进
该研究针对离线策略评估的弱点,探讨了如何通过约束动作选择减少Bellman backup带来的bootstrapping error,提出了一种名为BEAR的实用算法,在不同的离线策略分布上都表现出较强的鲁棒性。
Jun, 2019
本文通过采用基于基线的自举算法(SPIBB),允许在更广泛的策略集合上进行策略搜索,通过控制局部模型不确定性来约束政策变化,对捕获不良行为的风险进行更全面的评估,实验结果表明相对于现有的SPI算法,本文提出的方法在有限MDP和具有神经网络函数近似的无限MDP上均有显着提高。
Jul, 2019
研究控制一个在运作时间内有高概率保持期望安全集合的Markov决策过程的学习问题,使用一种约束的Markov决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。
Nov, 2019
提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题,其中基准策略可以来自示范数据或教师代理,并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中,该算法始终优于多个最先进的基线算法,并在平均回报上提高了40%,约10倍少的约束违规行为。
Jun, 2020
本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力,并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。
Jul, 2020
该论文探讨了如何在已知基线策略下,通过在多个奖励信号中进行权衡来改进机器学习模型的安全策略,并提出了一种新的基于安全策略迭代的方法,以保证算法的安全性和性能。
May, 2021
介绍了一个新的算法,它可以在有限的马尔可夫决策过程上提供安全保障,并且在两个基准测试中展现出最佳表现。同时,提出了一个SPI算法的分类法,发现想法限制政策集合的算法更为安全。
Jan, 2022
该研究提出了一种解决增强学习自动合成策略的算法,该算法通过解决奖励形状设计和安全策略更新等挑战来实现,同时使用基于模型的RL算法来有效地利用我们收集的数据,并在标准控制基准中展示了其有效性和鲁棒性。
Oct, 2022
本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法,该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法,并在多项基准实验中证明了其可行性和有效性。
Jan, 2023
提出了一种改进强化学习应用中特定问题的方法,可以显著减少样本复杂度,该方法使用隐式变换来推导更紧密的改进边界,透过实例展示该方法在改进SPIBB算法上的功效。
May, 2023