将人类放入图像字幕循环中
本文提出了一种交互式学习的图像标题生成模型,该模型使用数据增强方法来扩大人类反馈所提供的有效学习信息,并智能地将其集成到模型中,本文重点讨论了其反馈收集、数据增强和模型更新三个关键组件的实现方法。
Feb, 2022
本文介绍了一种名为 “基于委员会共识的图像字幕生成”($IC^3$)的新方法,该方法通过多个视角捕捉高级细节并生成单个字幕,人们评价 $IC^3$ 生成的字幕的有帮助程度至少与基准 SOTA 模型相同,并且 $IC^3$ 字幕可以将最先进的自动召回系统的性能提高高达 84%,这表明 $IC^3$ 是一个可以改进现有视觉描述的方法。
Feb, 2023
本篇论文介绍一种基于深度递归结构的生成模型,其结合了近期在计算机视觉和机器翻译方面的进展,能够用于生成描述图像的自然语言句子,并经过多种数据集的实验,验证了模型的准确性和语言的流畅性。更重要的是,该模型是通过对图像描述的学习而得,在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩,并提供了一个基于 TensorFlow 开源的实现。
Sep, 2016
本研究探索了一种潜在的方法,通过使用 Flickr8k 数据集,将监督学习和强化学习与人类反馈相结合,以提高深度神经网络模型生成符合人类偏好的标题的性能,并引入了一种新的损失函数,能够基于人类反馈优化模型。
Mar, 2024
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本文提出了一种交互式机器学习(IML)管道,用于图像字幕生成,其中使用简单的数据增强方法和持续学习方法来将用户输入逐步集成到训练过程中,通过实验发现应用分段记忆是保持先前聚类中知识的有效策略。
Jun, 2023
该研究旨在通过机器辅助写作使人类更有效地完成写作任务;研究者提出一种重写模型,允许用户在原始草稿的指定文本范围内引入局部描述性和比喻性元素,并评估模型在创意图像字幕任务上协作的能力。在与传统模型和用户单独完成任务的比较中,模型获得更高评价,并促使用户编写更具有描述性和比喻性的字幕。
Nov, 2021
本文提出了一种基于迭代自适应改进现有标题的图像字幕生成的新方法,该方法包括两个子模块:一个具有自适应复制机制和选择性复制存储器注意机制的语言模块 EditNet 和一个基于 LSTM 的去噪自编码器 DCNet,实验表明我们的方法在 MS COCO 数据集上取得了最先进的性能。
Mar, 2020
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017