Sep, 2022
通过词典目标实现强化学习的观察稳健性和不变性
Observational Robustness and Invariances in Reinforcement Learning via
Lexicographic Objectives
TL;DR本文研究了部分可观测马尔可夫决策问题中的策略鲁棒性,并提出了一种能够兼顾奖励性能和稳健性的方案,能够应用于任何策略梯度算法,并且保持原动态规划算法的收敛性。经过对安全关键RL环境的数值实验表明,本文提出的方法能够在引入策略滚动中的状态误差时实现高强度鲁棒性。