BriefGPT.xyz
Ask
alpha
关键词
symmetric rl loss
搜索结果 - 1
对于多样化任务和模型规模的鲁棒学习的对称强化学习损失
通过从有噪声数据中借鉴逆交叉熵(RCE)的方法将其适应于强化学习,定义了一种对称的 RL 损失,从而提高了 RL 训练的稳定性。在离散动作任务(Atari 游戏)和连续动作空间任务(MuJoCo 基准和 Box2D)中进行了实验,并通过改进
→
PDF
a month ago
Prev
Next