Jul, 2023

通过离线数据设计实验,对增强学习中的策略进行微调

TL;DR利用离线数据集设计无反馈的探索策略,改进强化学习的政策。研究通过理论分析和度量方法,以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。