May, 2022

可解释的多实例学习实现基于轨迹标签的非马尔可夫奖励建模

TL;DR本文中,我们将奖励建模应用于处理非马尔可夫奖励的强化学习问题,我们在此基础上移除了现有工作假设的独立反馈观察前提,并扩展了奖励建模以捕捉人类对轨迹的时间依赖关系。我们将其作为多实例学习(MIL)问题,通过将轨迹视为带有返回标签的包,将轨迹中的步骤视为具有未见过奖励标签的实例。我们还开发了新的多实例学习模型,能够捕捉标记轨迹中的时间依赖关系,并在一系列强化学习任务中展示了我们的新模型能够将奖励函数重建到高精度,并能用于训练高性能代理策略。