利用强化学习与人类反馈增强图像字幕生成
本文介绍了一种利用人力评分提高图像字幕模型的方法,通过策略梯度方法在离线强化学习框架下最大化人类评级作为奖励进行优化;实验结果表明该方法可以推广到之前未见过的图片集,具有较好的泛化性能。
Nov, 2019
使用 n-gram 语言先验约束动作空间的强化学习方法在图像字幕生成任务上取得了更好的可读性和收敛速度,同时解决了由精度优化引起的偏见和稳定性问题。
Sep, 2018
本文提出了一种交互式学习的图像标题生成模型,该模型使用数据增强方法来扩大人类反馈所提供的有效学习信息,并智能地将其集成到模型中,本文重点讨论了其反馈收集、数据增强和模型更新三个关键组件的实现方法。
Feb, 2022
本文提出了一种基于条件生成对抗网络的图像描述框架,添加了 “辨别器” 网络去逐步判断生成的描述是人类描述还是机器生成的,该算法是通用的,能够提高任何现有的基于 RL 的图像描述框架,实验表明,这种方法在不同的语言评估指标上有一致的改进。
May, 2018
通过人类反馈信号提高图像生成质量,结合文本到图像生成模型和基于强化学习的人类反馈,标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词,使用多模态变换器自动预测反馈,进一步改进图像生成方法。
Dec, 2023
本文介绍了一种有效可扩展的算法,利用强化学习(RL)在各种奖励函数上改进扩散模型,包括人类偏好、组合性和公平性,从而有效地解决了扩散模型与人类偏好不一致的问题,同时提高了生成样本的组合性和多样性。
Jan, 2024
本文介绍了一种 Fine-Tuning 方法,使用人类反馈对齐文本到图像的 Deep generative model,通过分析设计选择平衡对齐 - 准确性的权衡,最终通过奖励加权似然优化,使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明,利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。
Feb, 2023
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023