Aug, 2023

IOB: 集成优化迁移和行为迁移用于多策略重用

TL;DR通过在 actor-critic 框架中利用 Q 函数来引导策略选择,我们提出了一种基于优化传递和行为传递的新型迁移 RL 方法,将学习的策略规范化为模仿引导策略并将它们组合成行为策略,从而显著增强了迁移效果,在基准任务中超越了最新的迁移 RL 基线,改进了连续学习场景中的最终性能和知识可迁移性,另外,我们证明了我们的优化传递技术可以保证提高目标策略的学习。