ICMLJun, 2023

半离线强化学习用于优化文本生成

TL;DR该研究提出了一种半离线强化学习范式,可在保证探索能力的同时平衡训练成本,同时提供了比较不同强化学习设置的理论基础,并在优化成本、渐近误差和过度拟合误差边界方面提出了最优的强化学习设置。