Jan, 2024

一种具有解释性参数调整的鲁棒分位数 Huber 损失在分布式强化学习中的应用

TL;DR通过广义分位数 Huber 损失函数从高斯分布之间的 Wasserstein 距离计算出噪声,本文提出了一种广义的分位数 Huber 损失函数,主要用于在分布性强化学习中估计回报分布。与经典分位数 Huber 损失相比,该创新损失函数增强了对异常值的鲁棒性,且经过实证测试验证了其在 Atari 游戏和最新对冲策略中应用于分布性强化学习的效果以及在参数调整中的潜力。