Nov, 2022

通过撤销映射形式主义进行迁移强化学习

TL;DR提出了一个名为 TvD 的框架,通过分布匹配实现智能体在交互域之间的知识转移,其基于优化目标推导出了一种新的策略更新机制,该机制可以有效地解决任务差异性的影响。