本文提出了一种基于风险规避的探索策略,使用分布式鲁棒策略迭代方案来确保学习过程中的安全,并在连续状态/操作空间中扩展了此方法,得出了分布式鲁棒软演员-批评家算法的实用算法。
Feb, 2019
该研究通过异步Q-learning算法,在马尔科夫决策流程中的样本轨迹中学习最优动作价值函数,给出了基于L∞的样本复杂度分析及等式组,并在此基础上提出一种新的方差缩减技术,进一步提高了算法的效率。
Jun, 2020
本文研究Q-learning同步和异步情况下的样本复杂性和子优秀性,并展示在异步情况下的样本复杂性更强,Q-learning算法是严格亚最优的。
Feb, 2021
该研究提出了一种基于模型的强化学习算法,用于学习在标准和不确定的模型下最优的稳健控制策略,并考虑了不同形式的不确定性集合
Dec, 2021
我们提出了一种新的$Q$-learning算法,用于解决分配鲁棒的马尔可夫决策问题。我们证明了算法的收敛性,并提供了几个示例来说明我们算法的可处理性以及考虑分布稳健性在解决随机最优控制问题时的好处,尤其是在实践中估计的分布出现错误时。
Sep, 2022
本文提出了一种分布式抗干扰强化学习算法,即Robust Phased Value Learning算法,该算法针对四种不同的差距度量指标的不确定性集合进行求解,得到的结果在样本复杂度方面比现有结果具有更好的一致性。
Mar, 2023
研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距,采用分布鲁棒马尔可夫决策过程的框架,在规定的不确定性集合范围内学习最优性能策略,对于不同的不确定性集合,分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性,结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习,而是依赖于不确定性集合的大小和形状。
May, 2023
提出了一种基于高斯过程和最大方差缩减算法的模型基础方法,用于学习多输出名义转移动力学,克服了强化学习中的若干挑战,并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。
Sep, 2023
通过使用离线数据,基于分布健壮的线性马尔科夫决策过程,开发了一种悲观的模型算法,提供了一个具有样本效率的鲁棒性学习策略,以解决离线强化学习中模拟和实际环境之间的差异所带来的问题。
Mar, 2024
通过交互式数据收集,我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题,为设计样本高效的算法提供了足够的条件,并伴随着尖锐的样本复杂性分析。
Apr, 2024