BriefGPT.xyz
大模型
Ask
alpha
关键词
s-dqn
搜索结果 - 1
ICML
突破障碍:平滑 DRL 代理程序中的增强效用和鲁棒性
我们提出了 S-DQN 和 S-PPO 方法,通过对现有平滑代理的改进,在标准 RL 基准测试中显著提高了干净奖励、经验鲁棒性和鲁棒性保证,平均因子分别为 $2.16 imes$ 和 $2.13 imes$。此外,我们引入了 Smoothe
→
PDF
8 days ago
Prev
Next