BriefGPT.xyz
Ask
alpha
关键词
advantage-based experience selection
搜索结果 - 1
ICML
深度强化学习中的知识转移 (REPAINT)
本研究提出了一种名为 REPAINT 的深度强化学习知识转移算法,它不仅在 On-policy 学习中传递了预训练模型的表征,还使用基于优势的经验选择方法在 Off-policy 学习中传递了遵循预训练模型收集的有用样本,实验结果表明 RE
→
PDF
4 years ago
Prev
Next