Dec, 2023
基于结构风险最小化的未知奖励模型的逆强化学习
Inverse Reinforcement Learning with Unknown Reward Model based on
Structural Risk Minimization
TL;DR通过引入结构风险最小化方法,本文解决了逆强化学习模型选择中的权衡问题,以估计误差和模型复杂度为目标,选择最佳的奖励函数类别。具体实施的结构风险最小化包括估计策略梯度和建立模型惩罚的Rademacher复杂度的上界。通过模拟实验验证了该方案的性能和效率。