Aug, 2024

混合强化学习突破线性马尔可夫决策过程中的样本数量限制

TL;DR本研究解决了混合强化学习(RL)在保证无单一策略集中的假设下,是否可以改善纯离线和纯在线RL所建立的下界这一问题。通过研发高效算法,发现这些算法在提高误差或后悔界限方面实现了显著进展,为线性马尔可夫决策过程中的混合RL提供了最严格的理论保证。