BriefGPT.xyz
大模型
Ask
alpha
关键词
dual policy distillation
搜索结果 - 1
IJCAI
双重策略蒸馏
本文提出了一种双学习者的框架,名为双重策略蒸馏(DPD),其中两个学习者在同一环境中运行,以探索环境的不同方面并相互提取知识以增强他们的学习,并对几个连续控制任务进行实验,表明该框架可以在没有使用昂贵的教师模型的情况下,在具有学习基础的代理
→
PDF
4 years ago
Prev
Next