Sep, 2022

具有线性函数逼近的分布鲁棒离线强化学习

TL;DR本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法,该方法使用历史数据学习分布式鲁棒的策略,包括线性函数逼近的情况,提出了两种算法,得出了第一个样例复杂度的非渐近性结果,并展示了其在实验上的优越性。