双层协作变压器用于图像字幕生成

AAAIJan, 2021

双层协作变压器用于图像字幕生成

Dual-Level Collaborative Transformer for Image Captioning

Yunpeng Luo, Jiayi Ji, Xiaoshuai Sun, Liujuan Cao, Yongjian Wu...

TL;DR本研究提出一种新型双层协作变换器（DLCT）网络，结合传统网格特征和目标检测网络提取的描述性区域特征，利用双向自注意力和局部约束交叉关注模块来加强区域和网格特征间的语义语境关系，进一步提高图像字幕生成的性能，并在 MS-COCO 数据集上达到新的最先进性能。

Abstract

Descriptive region features extracted by object detection networks have played an important role in the recent advancements of image captioning. However, they are still criticized for the lack of →

object detection image captioning transformer network contextual information grid features

发现论文，激发创造

GRIT：使用双重视觉特征的更快更好的图像字幕转换器

本文提出了一个名为 GRIT 的纯 Transformer 神经架构，用于图像字幕生成，它可以有效地利用区域和网格这两种视觉特征来生成更好的字幕。在几项图像字幕基准测试中的实验结果表明，GRIT 在推理准确性和速度方面优于先前的方法。

Jul, 2022

精细视觉类别划分和物体再识别的双重交叉注意力学习

本文介绍了一种使用双重交叉 - 关注学习算法改进细粒度识别的方法，并通过全局 - 本地交叉关注和成对交叉关注等策略来提高自我关注机制的性能，从而使得注意力响应更加合理，能够发现更多互补的特征部位以提高识别精度。

May, 2022

探索和提取跨模态信息以用于图像字幕生成

本研究提出基于 Transformer 的全局与局部信息探索与提炼方法，在跨模态视角下探究图像字幕生成，并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。

Feb, 2020

使用图形注意力学习图像文本匹配的双重语义关系

本文提出了一种名为双重语义关系注意力网络 (DSRAN) 的新型图注意力方法，该方法主要由两个模块组成，分别进行不同层次的语义关系学习，从而提高图像文本匹配的准确性，并在 MS-COCO 和 Flickr30K 数据集上取得了显著优于以往方法的效果。

Oct, 2020

使用 Transformer 和课程学习的双重图卷积网络用于图像字幕生成

本文提出了针对图像标题生成问题的 Dual Graph Convolutional Networks (Dual-GCN) 模型，使用 Transformer 和 Curriculum Learning 技术，在单张图片内有效捕获物体间的关系和多张图像之间的特征信息以生成更为准确的标题，实验结果表明该模型在 MS COCO 数据集上表现突出，达到了 BLEU-1 得分 82.2 和 BLEU-2 得分 67.6。

Aug, 2021

点云分析的双变换器

本文提出了一种新颖的点云表示学习架构，称为 Dual Transformer Network (DTNet)，该架构主要包括一个 Dual Point Cloud Transformer (DPCT) 模块，该模块通过同时聚合点和通道的多头注意力机制，从位置和通道的语义角度捕获更丰富的上下文依赖性，有效地实现了三维点云分类和分割任务中的终端到终端分析。

Apr, 2021

基于时空补充学习的卷积 - Transformer 深度耦合网络用于视频行人再识别

本研究提出一种深度耦合的卷积 - Transformer 框架用于高性能视频人员重识别，包括特征提取、空间互补学习、时间互补学习以及自蒸馏训练策略，并取得了更好的性能。

Apr, 2023

学习图像去雨变换网络 with 动态双自注意力

该论文提出了一种基于 Transformer 的图像去雨算法，结合了密集和稀疏自注意力机制，通过选择最有用的相似性值和空间增强的前馈网络来提高去雨效果。实验证明了该方法的有效性。

Aug, 2023

D2-Net: 一个可训练卷积神经网络，用于局部特征的联合检测和描述

本文提出了一种使用卷积神经网络在像素级别取得可靠对应的方法，该模型可以同时作为密集特征描述符和特征检测器，并且在后期检测可以获得比传统低级结构的更稳定的关键点，从而实现了在无法获取更多注释信息的情况下训练该模型，该方法可以在难以定位的数据集（Aachen Day-Night localization dataset）和室内定位测试基准（InLoc indoor localization benchmark）中获得最先进的表现，同时在其他图像匹配和 3D 重建基准测试中也有竞争力。

May, 2019

基于端到端 Transformer 的图像描述模型

本文提出了一种基于 Transformer 的图像描述模型，使用 SwinTransformer 提取网格级特征，一阶段完成训练并实现 end-to-end 生成描述，得到了 MSCOCO 数据集上 state-of-the-art 的表现。

Mar, 2022