AAAINov, 2019

使用离线人类反馈加强图像字幕生成器

TL;DR本文介绍了一种利用人力评分提高图像字幕模型的方法,通过策略梯度方法在离线强化学习框架下最大化人类评级作为奖励进行优化;实验结果表明该方法可以推广到之前未见过的图片集,具有较好的泛化性能。