Apr, 2022

模型基节流离线强化学习的样本复杂度研究

TL;DR本文提出了一种无需进一步探索的离线强化学习方法,通过精心设计的模型实现了最优的样本复杂度,适合处理数据分布转移和数据覆盖范围受限的情况。