Jun, 2024
决策 - 注意力的在线策略蒸馏
Online Policy Distillation with Decision-Attention
Xinqiang Yu, Chuanguang Yang, Chengqing Yu, Libo Huang, Zhulin An...
TL;DR通过引入决策 - 注意力模块,我们提出了一种在线学习框架,不依赖于教师策略,能够在相同环境下不同策略之间转移知识,提高深度强化学习任务的性能。实验证明,我们的方法在不同任务中,相比于独立训练策略,在 PPO 和 DQN 算法上表现更好,有效地实现了不同策略间的知识转移,使智能体获得更多奖励。