通过提炼图像 - 文本匹配模型，实现更加扎实的图像字幕生成

CVPRApr, 2020

通过提炼图像 - 文本匹配模型，实现更加扎实的图像字幕生成

More Grounded Image Captioning by Distilling Image-Text Matching Model

Yuanen Zhou, Meng Wang, Daqing Liu, Zhenzhen Hu, Hanwang Zhang

TL;DR本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法（称为 POS-SCAN），以提高图像字幕准确性，并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。

Abstract

visual attention not only improves the performance of image captioners, but also serves as a visual interpretation to qualitatively measure the caption rationality and model transparency. Specifically, we expect that a captioner can fix its attentive gaze on the correct objects while g

visual attention grounded image captioning part-of-speech enhanced image-text matching model word-region alignment regularization self-critical sequence training

发现论文，激发创造

分布式注意力用于基于图像描述的场景理解

该研究针对弱监督概念下的图片描述问题，提出了一种基于分布式注意力机制和局部连接信息的部分地基准技术，可以帮助生成最佳的图片描述。

Aug, 2021

弱监督词组定位的对比学习

本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位，该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练，进而实现对 CO-Captions 数据集的短语 grounding，使精度提高了 5.7%。

Jun, 2020

Align2Ground: 基于图像 - 字幕对准的弱监督短语对齐

使用图像字幕对弱监督进行自由文本短语连接的问题展开研究，提出了一种新颖的端到端模型，并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。

Mar, 2019

无需定位监督学习生成有依据的视觉描述

通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中，提高了图像标题生成模型的文本本地化能力，而不需要使用本地化监督或在推理过程中引入额外的计算。

Jun, 2019

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

通过对比知识蒸馏提高弱监督视觉定位

本文提出了一种基于弱监督学习、对比学习和目标检测的短语定位方法，旨在解决训练过程中图像区域和句子短语之间缺失链接的问题，并在消除了测试时的目标检测需求后，取得了在视觉短语定位方面的最新成果。

Jul, 2020

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017

ReGround: 提升文本和空间定位的无成本方法

通过改变网络架构，将分布式注意力和交叉注意力从串行变为并行，可以显著减少文本和空间对齐之间的权衡。

Mar, 2024

用于改善图像字幕的对抗语义对齐

本文提出了一种基于有上下文的 LSTM 描述生成器和协同对抗网络鉴别器的图像描述生成方法，并比较了两种训练方法，结果表明 Self-critical Sequence Training 表现更好；同时，介绍了一种用于衡量生成模型的语义得分，构建了 OOC 数据集来检测生成器的泛化能力与语义相似度。

Apr, 2018

自上而下视角的基于图像实体的图像字幕生成

本研究提出了一种一阶段的弱监督图像标题生成方法，通过注入关系模块来鼓励多标签分类中的关系理解，从而提高了关注性能和字幕生成准确性，并在两个具有挑战性的数据集上验证了该方法的有效性。

Jun, 2023