BriefGPT.xyz
大模型
Ask
alpha
关键词
soft actor-critic (sac)
搜索结果 - 1
基于模型的规划提炼出有理论保证的策略改进
通过开发一种从基于模型的规划到策略的蒸馏方法,我们扩展了软负责人 - 评论者算法(SAC)的策略改进步骤,并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。
PDF
a year ago
Prev
Next