Jun, 2024

决策 - 注意力的在线策略蒸馏

TL;DR通过引入决策 - 注意力模块,我们提出了一种在线学习框架,不依赖于教师策略,能够在相同环境下不同策略之间转移知识,提高深度强化学习任务的性能。实验证明,我们的方法在不同任务中,相比于独立训练策略,在 PPO 和 DQN 算法上表现更好,有效地实现了不同策略间的知识转移,使智能体获得更多奖励。