BriefGPT.xyz
大模型
Ask
alpha
关键词
entropy regularisation
搜索结果 - 1
策略蒸馏的提炼
本文探究了深度强化学习中的知识转移工具:策略蒸馏(distillation),比较了各种不同形式并通过理论和实证分析确定了三种最佳蒸馏技术,其中新提出的期望熵正规化蒸馏在广泛的情况下能够保证收敛并加快学习速度。
PDF
5 years ago
Prev
Next