学习描述一对相似图片之间的差异

EMNLPAug, 2018

学习描述一对相似图片之间的差异

Learning to Describe Differences Between Pairs of Similar Images

Harsh Jhamtani, Taylor Berg-Kirkpatrick

TL;DR本文介绍了一项任务，即自动生成文本来描述两个相似图像之间的差异。我们通过众包获取了一组新的数据集，并提出了一种模型，该模型使用隐变量来根据像素聚类将不同的像素与输出句子对齐，以捕捉视觉显著性并实现语言和视觉的对准。

Abstract

In this paper, we introduce the task of automatically generating text to describe the differences between two similar images. We collect a new dataset by crowd-sourcing difference descriptions for pairs of image frames extracted from video-surveillance footage. Annotators were asked to succinctly describe all the differences in a short paragraph. As a result

text generation image comparison dataset creation language and vision alignment visual salience

发现论文，激发创造

用自然语言描述图像集合之间的差异

自动描述两个图像集之间的差异，并通过对候选描述进行重新排序来区分两个集合，从而揭示数据集和模型中的潜在差异

Dec, 2023

L2C: 描述视觉差异需要对个体进行语义理解

本文介绍了一种 Learning-to-Compare 模型，该模型能够理解两个图像之间的语义结构并学习描述每个图像，从而有效地进行图像比较和生成描述。使用该模型可以在 Birds-to-Words 数据集上实现比基准模型更好的性能，且同时在自动评估和人类评估中表现良好。

Feb, 2021

神经自然主义者：生成细粒度图像比较

介绍了一个名为 Birds-to-Words 的新数据集，包含用自然语言描述鸟类的语句，使用了一种新的分层抽样方法，提出了一个名为神经博物学家（Neural Naturalist）的模型来生成，评估结果表明，神经模型具有用自然语言解释视觉嵌入空间中差异的潜力，并为机器学习提供了一条资助公民科学家保护生物多样性的具体路径。

Sep, 2019

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

基于预训练和对比学习的图像差异字幕生成

本文提出了一种基于自监督学习的图像差异描述任务的建模框架，并通过对比学习策略来提高视觉与语言的相关性，同时使用数据扩展方法利用多余的监督信息来拓宽有限的数据集，实验表明这种方法有效。

Feb, 2022

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

深度视觉语义对齐生成图像描述

本文介绍了一个基于卷积神经网络、双向递归神经网络和多模态嵌入的模型，用于生成图像及其区域的自然语言描述，并展示了在多个数据集上，该模型的对齐模型均优于基准检索结果，生成的描述显著优于检索结果和基准。

Dec, 2014

只用语言数据学习视觉任务，竟然没有图像！

本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能，并将其转移到视觉任务中，同时提出探究对比模型嵌入空间中不同模态的系统差异，进一步理解和缓解这种关注的策略。实践证明，我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型，性能表现接近仅使用图像训练数据建立的模型，尤其是针对图像标注和视觉蕴含任务的文本训练数据，有望超过 9 个百分点的提升。同时，我们还展示了多种样式的图像标注模型，这些模型使用的不是图像数据和人工策划的语言数据，而是来自于图书、网络或语言模型可用的文本数据。

Nov, 2022

使用深度学习将两个场景的概念差异本地化，以供家庭保洁使用

本文提出了一种基于深度学习和迁移学习的方法，用于发现工业环境中两幅图像间的概念差异，解决了因环境中物体种类丰富多样以及光照条件改变而导致监督学习方法无法准确区分的问题，并使用添加和合成数据的方法来生成数据集，并对模型结果进行了评估，该方法具有较好的工业应用前景。

Aug, 2022

新闻故事：用视觉摘要来说明文章

该研究探索了一个新的问题，即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法，其介绍了一个包括超过 31M 篇文章，22M 张图片和 1M 个视频的大规模多模态数据集，并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述，且还提出了一种直观的基线方法，在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。

Jul, 2022