BriefGPT.xyz
大模型
Ask
alpha
关键词
online policy distillation
搜索结果 - 1
决策 - 注意力的在线策略蒸馏
通过引入决策 - 注意力模块,我们提出了一种在线学习框架,不依赖于教师策略,能够在相同环境下不同策略之间转移知识,提高深度强化学习任务的性能。实验证明,我们的方法在不同任务中,相比于独立训练策略,在 PPO 和 DQN 算法上表现更好,有效
→
PDF
24 days ago
Prev
Next