Sep, 2024

分布鲁棒离线强化学习的上下界

TL;DR本文研究了离线强化学习中策略训练和部署环境不一致的问题。提出了一种新的算法We-DRIVE-U,能够在面对过渡动态的不确定性时,提供显著的平均次优性改进,并构建了首个信息论下界,表明该算法在任意不确定性水平下接近最优。该算法还通过“稀有切换”设计显著提高了计算效率。