BriefGPT.xyz
Ask
alpha
关键词
mujoco benchmarking tasks
搜索结果 - 1
ICML
Meta-SAC: 通过 Metagradient 自动调整软演员批评家的熵温度
本文提出一种新方法 Meta-SAC,基于 Soft Actor-Critic (SAC) 算法,使用元梯度及元目标来自动调整熵温度,以平衡任务原始奖励与策略熵,从而解决了探索利用困境的问题,并在 Mujoco 基准测试任务中达到了令人满意
→
PDF
4 years ago
Prev
Next