Mar, 2024

多任务强化学习中的高效短视探索

TL;DR通过在多个任务上进行训练,可以证明多任务强化学习(MTRL)中基于共享结构的一般性策略共享算法具有适用于样本高效率的 myopic 探索设计,这是首次理论证明了 MTRL 的 “探索优势”。而多样性任务集的验证实验证明任务选择与自动课程学习相一致,在合成机器人控制环境的实验中改善了样本效率。