基于 Transformer 的多个变化的描述和定位

ICCVMar, 2021

基于 Transformer 的多个变化的描述和定位

Describing and Localizing Multiple Changes with Transformers

Yue Qiu, Shintaro Yamamoto, Kodai Nakashima, Ryota Suzuki, Kenji Iwata...

TL;DR本研究提出基于模拟的多变化字幕数据集并将现有单个变化字幕学习方法应用于多变化字幕任务上，此外，我们还提出 MCCFormers 方法以识别图像对中的变化区域并动态确定与句子中的单词相关的变化区域，该方法在多变化字幕评估指标方面表现出最高得分，在变化局部化方面也表现出色，且优于现有的变化字幕基准。

Abstract

change captioning tasks aim to detect changes in image pairs observed before and after a scene change and generate a natural language description of the changes. Existing change captioning studies have mainly foc

change captioning multi-change captioning mccformers evaluation metrics change localization

发现论文，激发创造

邻域对比变换器用于变化说明

本文提出了一种基于邻域对比变换的改进模型，用于语义变化的描述。实验证明，该方法在三个场景不同的公共数据集上都实现了最先进的性能

Mar, 2023

远程感知变化字幕的注意力网络

通过使用自然语言处理技术直接学习和分析遥感图像，本研究提出使用 Chg2Cap 网络处理双时相遥感图像变化标注任务，该网络包括 Siamese CNN 特征提取器、注重变化相关特征的自注意力编码器和 Transformer 生成器，并在两个典型遥感数据集上经过充分实验验证。

Apr, 2023

另一侧的发现：一种适应视角的匹配编码器用于变化字幕

本文提出一种新颖的视觉编码器，以在 Change Captioning 任务中明确区分视点变化和语义变化，并进一步模拟人类的注意力偏好，通过一种新的强化学习过程直接微调注意力。实验结果表明，该方法在 Spot-the-Diff 和 CLEVR-Change 数据集中的表现优于现有方法。

Sep, 2020

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020

实体感知新闻图像标题生成

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态，多头注意力机制，结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题，并在 CIDEr 评分上实现了当前最高水平的四倍提升。

Apr, 2020

面向上下文的多变动字幕中的差异提取

该研究提出了一种新颖的上下文感知差异提取（CARD）网络，用于描述自然语言中图像对中的复杂和耦合变化，通过捕捉所有真实的变化来生成句子，并在三个公共数据集上展示了优于现有方法的性能。

May, 2024

CPTR: 图像标注的全变压器网络

本研究提出了 CaPtion TransformeR （简称 CPTR）这一基于序列到序列（sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同，本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模，并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性，本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。

Jan, 2021

基于 Transformer 的多模态变化检测与多任务一致性约束

基于跨维度输入的一种有效的基于 Transformer 的网络用于改变检测，通过交叉关注学习了跨维度输入之间的共享表示，采用一致性约束建立了多模态关系，并通过高度改变阈值和最小化语义与伪改变之间的不同来解决语义和高度改变检测任务之间的多任务冲突。该模型在荷兰的三个城市构建了包含 DSM 到影像的多模态数据集，相对于其他五种先进的改变检测方法，表现出了一致的多任务优势，同时该一致性策略也可以无缝地适用于其他方法，取得了可喜的改进。

Oct, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020