BriefGPT.xyz
Ask
alpha
关键词
discrete sac
搜索结果 - 1
DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家
我们提出了一种新颖的 Soft Actor-Critic(SAC)算法扩展。基于最大熵原理,我们认为通过从替代性评论策略中得出的附加统计约束,可以进一步改进离散 SAC 算法。此外,我们的研究结果表明,这些约束对于潜在领域转移提供了额外的稳
→
PDF
8 months ago
Prev
Next