Sep, 2023

多任务强化学习中的知识精炼优化传递

TL;DR通过使用 Sinkhorn 映射来替换 Kullback-Leibler 散度,进一步提高多任务强化学习的数据效率,并通过实验证明新增的基于最优传输的奖励可以加速智能体的学习过程,优于多任务学习中的几个基准模型。