通过自然语言反馈教机器描述图片

Jun, 2017

通过自然语言反馈教机器描述图片

Teaching Machines to Describe Images via Natural Language Feedback

Huan Ling, Sanja Fidler

TL;DR本研究通过引入人在环路中，使得机器人可以通过自然语言意见反馈学习多层级基于短语的图像字幕生成，展示出比独立编写的人类字幕表现更好的性能

Abstract

robots will eventually be part of every household. It is thus critical to enable algorithms to learn from and be guided by non-expert users. In this paper, we bring a human in the loop, and enable a human teacher

robots algorithms human-in-the-loop image captioning descriptive feedback

发现论文，激发创造

交互式机器学习：图像字幕生成

本文提出了一种交互式学习的图像标题生成模型，该模型使用数据增强方法来扩大人类反馈所提供的有效学习信息，并智能地将其集成到模型中，本文重点讨论了其反馈收集、数据增强和模型更新三个关键组件的实现方法。

Feb, 2022

利用强化学习与人类反馈增强图像字幕生成

本研究探索了一种潜在的方法，通过使用 Flickr8k 数据集，将监督学习和强化学习与人类反馈相结合，以提高深度神经网络模型生成符合人类偏好的标题的性能，并引入了一种新的损失函数，能够基于人类反馈优化模型。

Mar, 2024

基于短语的图像字幕

本文提出了一个简单的模型，可以根据给定的图片生成相关的句子，它主要侧重于句子的语法，并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系，并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果，同时相对于最先进的模型而言，该方法更加简单。

Feb, 2015

基于对话的交互式图像检索

介绍了一种新的交互式图像检索方法，该方法允许用户通过自然语言提供反馈，形成了一个基于强化学习的对话系统，用于提高目标图像的排名，该方法在鞋类检索应用中表现出更好的准确性和更有效的检索结果。

May, 2018

展示并告诉：神经图像字幕生成器

本文提出了基于深度递归架构的生成模型，结合计算机视觉和机器翻译的最新进展，将图像描述为自然语言的句子，实验结果表明了模型的准确性和流畅性。

Nov, 2014

通过叙述式示范进行奖励学习

该研究提出了一种联合学习自然语言基础和可教授行为策略的方法，并使用叙述视觉演示（NVD）对其进行监督。通过将指导者描述映射到感知奖励探测器，训练对应的行为策略。通过实验表明，具有自然语言指导的可教授代理人可以在测试时执行涉及新对象和新位置的行为。

Apr, 2018

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016

从语言反馈中学习奖励

本研究采用自然语言反馈作为人工智能代理的学习信号，使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数，来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习，并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。

Sep, 2020

序列型演员 - 评论家算法在图像字幕生成中的应用

本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法，通过计算每个 token 的优势和值实现直接优化语言质量指标，取得了在 MSCOCO 数据集上的最先进性能。

Jun, 2017

将人类放入图像字幕循环中

通过人工反馈训练图像字幕模型，使其适应特定用户数据，并采用稀疏记忆重播组件避免灾难性遗忘，从而实现自定义图像字幕模型。

Jun, 2023