BriefGPT.xyz
Ask
alpha
关键词
code-level optimizations
搜索结果 - 2
合作多智能体强化学习中实现技巧和单调性约束的反思
本研究调查 QMIX 算法的代码级优化和单调性约束,揭示代码级优化对 QMIX 算法改进的显著影响,并发现在纯协作任务中,单调性约束可以提高样本效率和性能。
PDF
3 years ago
ICLR
深度策略梯度的实现问题: PPO 和 TRPO 的案例研究
通过对两种流行算法(PPO 和 TRPO)的案例研究,我们研究了深度策略梯度算法中算法进展的根源,并调查了 “代码级优化” 的后果:这些优化仅出现在其他实现中或被描述为核心算法的辅助详细信息,它们似乎具有次要影响,但实际上极大地影响了代理行
→
PDF
4 years ago
Prev
Next