ICMLJul, 2023

DIP-RL: 在 Minecraft 中的演示推断偏好学习

TL;DR在这篇论文中,我们介绍了一种名为 DIP-RL 的算法,它利用人类示范的方式以三种不同的方式来解决在结构不清晰和开放性环境中的任务,包括训练一个自动编码器、使用示范数据种子强化学习训练批次以及推断行为偏好以学习引导强化学习的奖励函数。我们在 Minecraft 中的砍树任务中评估了 DIP-RL,并且结果表明该算法可以引导强化学习代理学习到反映人类偏好的奖励函数,且在性能上相对于基准算法表现有竞争力。