Dec, 2024

重访生成策略:简单的强化学习算法视角

TL;DR本研究针对当前生成模型在强化学习中的应用,尤其是在政策建模中存在的训练方案和优化目标的差异,提出了改进方法。文章提出了两种新的训练目标,分别为生成模型政策优化(GMPO)和生成模型策略梯度(GMPG),并在标准化实验框架下验证其有效性,展示了在多种离线强化学习数据集上具有先进的性能,提供了生成策略训练和部署的统一指导。