ICMLJun, 2023
半离线强化学习用于优化文本生成
Semi-Offline Reinforcement Learning for Optimized Text Generation
Changyu Chen, Xiting Wang, Yiqiao Jin, Victor Ye Dong, Li Dong...
TL;DR该研究提出了一种半离线强化学习范式,可在保证探索能力的同时平衡训练成本,同时提供了比较不同强化学习设置的理论基础,并在优化成本、渐近误差和过度拟合误差边界方面提出了最优的强化学习设置。