视觉解释基础（扩展摘要）

NIPSNov, 2017

Grounding Visual Explanations (Extended Abstract)

Lisa Anne Hendricks, Ronghang Hu, Trevor Darrell, Zeynep Akata

TL;DR本论文提出了一种新的模型，通过利用在生成的解释中的成分词的本地化接地来确保图像相关性，从而同时生成文本解释和图像。

Abstract

Existing models which generate textual explanations enforce task relevance through a discriminative term loss function, but such mechanisms only weakly constrain mentioned object parts to actually be present in t

textual explanations task relevance localized grounding phrase-critic model relative-attribute inspired ranking loss

发现论文，激发创造

视觉解释基础

提出了一种短语评论模型，可用于细粒度分类决策的可解释人工智能代理，通过使用反转短语作为负样本进行训练，提高了生成解释的文本质量，并能检测并纠正在句子中的错误短语，有效提高解释生成的可靠性。

Jul, 2018

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

视觉和语言模型中短语定位和任务表现的联合研究

通过在图像环境中关联文字和短语到图像区域，本文提出了一个框架来共同研究任务表现和短语的关联，并提出了三个基准来研究二者之间的关系。我们的研究结果显示，现有模型在关联短语和解决任务方面存在不一致性。我们展示了如何通过对关联短语注释进行穷举式训练来解决这个问题，并分析了它所产生的动态性。

Sep, 2023

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017

通过自洽解释改进的视觉对准

使用视觉与语言模型、视觉解释方法和近义词进行微调，目标是提高定位能力和对象高亮质量。在多个数据集中，通过该方法相较于基线方法和之前的工作获得了显著的改进。

Dec, 2023

使用基准和共指人生成描述

提出了一种基于弱监督学习的电影描述模型，通过学习角色的可视外观和描述之间的关系来实现角色地位的划分，该模型不仅提高了生成描述的质量，还实现了角色定位，局部共指分辨率，并在 MPII 电影描述数据集上进行了评价。

Apr, 2017

弱监督词组定位的对比学习

本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位，该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练，进而实现对 CO-Captions 数据集的短语 grounding，使精度提高了 5.7%。

Jun, 2020

通过视觉语言验证和迭代推理来改善视觉定位

本研究提出了一种基于 transformer 的视觉定位框架，通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位，并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。

Apr, 2022

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

生成视觉解释

提出了一种新的深度学习视觉识别模型，可根据可见物体的特征进行分类，并生成解释说明预测标签的原因，该模型使用了一种基于采样和强化学习的新型损失函数，能够生成与现有描述方法不同的描述结果。

Mar, 2016