Jun, 2023

约束反向强化学习中的可辨识性和泛化性

TL;DR研究提出了一种强化学习的理论框架,旨在解决设计适当的奖励函数和保证学习策略的安全性两大挑战。文章从凸解析角度扩展了奖励可识别性和泛化性等方面的研究,并在约束马尔可夫决策过程中证明了真实奖励需要在常数范围内确定才能确保泛化到新的转移模型和约束条件。最后,文章在网格世界环境中验证了理论结果。