May, 2023

实用鲁棒强化学习:邻域不确定性集和双代理算法

TL;DR介绍了一种新的不确定性集合并基于此提出了一种名为ARQ-Learning的鲁棒强化学习方法,同时还提出一种能高效解决ARQ-Learning在大规模或连续状态空间下的问题的技术,最终将其应用于各种存在模型不确定性的强化学习应用中。