BriefGPT.xyz
Ask
alpha
关键词
advisers
搜索结果 - 1
KDD
在连续任务中利用导师进行领域知识转移
将顾问整合到深度确定性策略梯度(DDPG)算法,以允许将领域知识以预先学习的政策或预定义的关系的形式整合到学习过程中,以加速学习和改善政策。
PDF
3 years ago
Prev
Next