交互式机器学习：图像字幕生成

Feb, 2022

Interactive Machine Learning for Image Captioning

Mareike Hartmann, Aliki Anagnostopoulou, Daniel Sonntag

TL;DR本文提出了一种交互式学习的图像标题生成模型，该模型使用数据增强方法来扩大人类反馈所提供的有效学习信息，并智能地将其集成到模型中，本文重点讨论了其反馈收集、数据增强和模型更新三个关键组件的实现方法。

Abstract

We propose an approach for interactive learning for an image captioning model. As human feedback is expensive and modern neural network based approaches often require large amounts of supervised data to be traine

interactive learning image captioning data augmentation neural networks training examples

发现论文，激发创造

将人类放入图像字幕循环中

通过人工反馈训练图像字幕模型，使其适应特定用户数据，并采用稀疏记忆重播组件避免灾难性遗忘，从而实现自定义图像字幕模型。

Jun, 2023

适应性和交互式图像字幕生成的研究：数据增强和情节记忆方向

本文提出了一种交互式机器学习（IML）管道，用于图像字幕生成，其中使用简单的数据增强方法和持续学习方法来将用户输入逐步集成到训练过程中，通过实验发现应用分段记忆是保持先前聚类中知识的有效策略。

Jun, 2023

通过自然语言反馈教机器描述图片

本研究通过引入人在环路中，使得机器人可以通过自然语言意见反馈学习多层级基于短语的图像字幕生成，展示出比独立编写的人类字幕表现更好的性能

Jun, 2017

利用强化学习与人类反馈增强图像字幕生成

本研究探索了一种潜在的方法，通过使用 Flickr8k 数据集，将监督学习和强化学习与人类反馈相结合，以提高深度神经网络模型生成符合人类偏好的标题的性能，并引入了一种新的损失函数，能够基于人类反馈优化模型。

Mar, 2024

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

高级交互式人机学习界面用于收集和学习复杂的注释

本文旨在通过为二分类任务提供人机学习界面，使人类注释者能够利用反事实例来补充标准的二分类标签，以缓解人类注释者适应传统标签所施加的限制。

Mar, 2024

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016

基于对话的交互式图像检索

介绍了一种新的交互式图像检索方法，该方法允许用户通过自然语言提供反馈，形成了一个基于强化学习的对话系统，用于提高目标图像的排名，该方法在鞋类检索应用中表现出更好的准确性和更有效的检索结果。

May, 2018

展示并告诉：神经图像字幕生成器

本文提出了基于深度递归架构的生成模型，结合计算机视觉和机器翻译的最新进展，将图像描述为自然语言的句子，实验结果表明了模型的准确性和流畅性。

Nov, 2014

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020