Mar, 2024

离线强化学习:状态聚合和轨迹数据的作用

TL;DR离线强化学习中,对于具有价值函数的可实现性但不具备 Bellman 完备性的问题,我们提供了关于离线策略评估任务的负回答,并揭示了聚合马尔可夫转移模型中的集中度系数在样本复杂性中的重要性,即使原始 MDP 中的集中度系数较小且离线数据可接受,聚合的集中度系数仍可能呈指数增长,而轨迹数据相对于可接受的数据并没有额外的好处。