Feb, 2024

延迟随机环境中的控制:基于模型的强化学习方法

TL;DR本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法,该方法采用了随机规划而非以前使用的确定性规划方法,从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略,并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点,然后比较了这些方法在控制多个 Atari 游戏方面的性能。