Dec, 2023

基于结构风险最小化的未知奖励模型的逆强化学习

TL;DR通过引入结构风险最小化方法,本文解决了逆强化学习模型选择中的权衡问题,以估计误差和模型复杂度为目标,选择最佳的奖励函数类别。具体实施的结构风险最小化包括估计策略梯度和建立模型惩罚的 Rademacher 复杂度的上界。通过模拟实验验证了该方案的性能和效率。