BriefGPT.xyz
Ask
alpha
关键词
corrupted reward signals
搜索结果 - 1
ICLR
减少方差的深度强化学习奖励估计
该研究提出使用奖励估算方法来应对机器人学习中复杂任务中可能出现的损坏或随机奖励信号,这种方法能够提高算法的稳定性和性能表现,并且应用范围广泛。
PDF
6 years ago
Prev
Next