Jan, 2024

干扰奖励强化学习中的分布式奖励评论框架

TL;DR我们研究了在未知奖励扰动情况下的强化学习,引入了一种自适应分布式奖励评论家模型,理论上证明它能在技术条件下恢复真实奖励,在离散和连续控制任务中取得了最高回报,甚至在未定向的扰动条件下也能超过基准线的设计。