利用强化学习与人类反馈增强图像字幕生成

Mar, 2024

利用强化学习与人类反馈增强图像字幕生成

Enhancing Image Caption Generation Using Reinforcement Learning with Human Feedback

Adarsh N L, Arun P V, Aravindh N L

TL;DR本研究探索了一种潜在的方法，通过使用 Flickr8k 数据集，将监督学习和强化学习与人类反馈相结合，以提高深度神经网络模型生成符合人类偏好的标题的性能，并引入了一种新的损失函数，能够基于人类反馈优化模型。

Abstract

Research on generative models to produce human-aligned / human-preferred outputs has seen significant recent contributions. Between text and image-generative models, we narrowed our focus to →

generative models text-based captions deep neural network model supervised learning

发现论文，激发创造

使用离线人类反馈加强图像字幕生成器

本文介绍了一种利用人力评分提高图像字幕模型的方法，通过策略梯度方法在离线强化学习框架下最大化人类评级作为奖励进行优化；实验结果表明该方法可以推广到之前未见过的图片集，具有较好的泛化性能。

Nov, 2019

利用自然语言先验提升基于强化学习的图像标注

使用 n-gram 语言先验约束动作空间的强化学习方法在图像字幕生成任务上取得了更好的可读性和收敛速度，同时解决了由精度优化引起的偏见和稳定性问题。

Sep, 2018

交互式机器学习：图像字幕生成

本文提出了一种交互式学习的图像标题生成模型，该模型使用数据增强方法来扩大人类反馈所提供的有效学习信息，并智能地将其集成到模型中，本文重点讨论了其反馈收集、数据增强和模型更新三个关键组件的实现方法。

Feb, 2022

使用条件生成式对抗网络改进图像标注

本文提出了一种基于条件生成对抗网络的图像描述框架，添加了 “辨别器” 网络去逐步判断生成的描述是人类描述还是机器生成的，该算法是通用的，能够提高任何现有的基于 RL 的图像描述框架，实验表明，这种方法在不同的语言评估指标上有一致的改进。

May, 2018

通过自然语言反馈教机器描述图片

本研究通过引入人在环路中，使得机器人可以通过自然语言意见反馈学习多层级基于短语的图像字幕生成，展示出比独立编写的人类字幕表现更好的性能

Jun, 2017

文本到图像生成的丰富人类反馈

通过人类反馈信号提高图像生成质量，结合文本到图像生成模型和基于强化学习的人类反馈，标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词，使用多模态变换器自动预测反馈，进一步改进图像生成方法。

Dec, 2023

大规模强化学习用于扩散模型

本文介绍了一种有效可扩展的算法，利用强化学习（RL）在各种奖励函数上改进扩散模型，包括人类偏好、组合性和公平性，从而有效地解决了扩散模型与人类偏好不一致的问题，同时提高了生成样本的组合性和多样性。

Jan, 2024

利用人类反馈对齐文本与图像模型

本文介绍了一种 Fine-Tuning 方法，使用人类反馈对齐文本到图像的 Deep generative model，通过分析设计选择平衡对齐 - 准确性的权衡，最终通过奖励加权似然优化，使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明，利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。

Feb, 2023

FigCaps-HF: 一种基于图像生成的图像描述生成框架与带人类反馈的基准

科学可视化中的图片标题生成模型，通过专家反馈进行优化，在读者偏好下取得了显著性能提升。

Jul, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023