测量强化学习中的干预鲁棒性
本文对于强化学习的健壮性、稳定性和韧性进行了全面的文献综述,通过分类已有的定量和理论方法来评估和衡量这些行为,并提供了一个有用的决策树来选择衡量这些行为的指标,这是首个针对强化学习的稳定性、健壮性和韧性的全面综述。
Mar, 2022
本文提出了一种基于增强和干预的多任务学习框架 --ReIL,该框架旨在实现在无需过多监督和调整的情况下,在真实环境中训练代理。实验结果表明,相较于其他基于干预的方法,ReIL 使用任意奖励函数进行训练时无需使用额外启发式方法,能够在稀疏监督信号的情况下快速学习并保持性能。
Mar, 2022
本文提出了模型的鲁棒性来应对数据偏移,给出了用贝叶斯网络建模,确定参数和因果影响的干预下的最坏情况下性能的算法。实验结果表明该方法在实践网络中得出有用且可解释的范围性结论,从而可以构建出可证明因果性的鲁棒决策制定系统。
May, 2021
通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结,本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战,探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性,同时讨论了环境因素和人的参与等影响因素,最后提出了一个实用的检查清单,以帮助从业者在各个应用领域负责任地部署 RL 系统。
Mar, 2024
本研究介绍了一种名为 ROPI 的算法,用于在存在模型不确定性的情况下学习具有鲁棒性的选项。此外,我们还使用 RO-DQN 解决多个任务并缓解了由于模型不确定性而导致的模型错误,实验结果表明,具有粗糙特征表示时使用线性特征的策略迭代具有固有的鲁棒性。另外,我们的实验结果证明,鲁棒性有助于在深度神经网络之上实现的策略迭代,能够推广到比非鲁棒性的策略迭代更广泛的动力学范围。
Feb, 2018
本文探讨了深度强化学习策略中的鲁棒性问题,发现通过更自然的方式在黑盒设置中可以找到灵敏度方向,且相较于最先进的对抗性训练技术,普通训练技术可以使学习到的策略更加鲁棒。该实验结果可以为构建更加鲁棒的深度强化学习策略提供帮助。
Jan, 2023