Mar, 2022

跟随你的嗅觉:在强化学习中使用通用价值函数进行有向探索

TL;DR本研究探索了使用 GVF 和有向探索策略结合探索和辅助任务学习的方法来提高强化学习中的样本效率,实验表明该方法在不同大小的网格导航任务中表现出优异的性能。