Mar, 2024

基于模型内在动机的离策略学习与主动在线探索

TL;DR通过引入预测模型和离线学习元素,结合一个实用性较高的终端价值函数,本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差,我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联,使得智能体能够有效地克服渐进性能差距。通过广泛的实验证明,我们的方法在与以往工作的比较中表现出有竞争力的甚至更优异的性能,尤其是在稀疏奖励的情况下。