双层协作变压器用于图像字幕生成
本文提出了一个名为 GRIT 的纯 Transformer 神经架构,用于图像字幕生成,它可以有效地利用区域和网格这两种视觉特征来生成更好的字幕。在几项图像字幕基准测试中的实验结果表明,GRIT 在推理准确性和速度方面优于先前的方法。
Jul, 2022
本文介绍了一种使用双重交叉 - 关注学习算法改进细粒度识别的方法,并通过全局 - 本地交叉关注和成对交叉关注等策略来提高自我关注机制的性能,从而使得注意力响应更加合理,能够发现更多互补的特征部位以提高识别精度。
May, 2022
本研究提出基于 Transformer 的全局与局部信息探索与提炼方法,在跨模态视角下探究图像字幕生成,并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。
Feb, 2020
本文提出了一种名为双重语义关系注意力网络 (DSRAN) 的新型图注意力方法,该方法主要由两个模块组成,分别进行不同层次的语义关系学习,从而提高图像文本匹配的准确性,并在 MS-COCO 和 Flickr30K 数据集上取得了显著优于以往方法的效果。
Oct, 2020
本文提出了针对图像标题生成问题的 Dual Graph Convolutional Networks (Dual-GCN) 模型,使用 Transformer 和 Curriculum Learning 技术,在单张图片内有效捕获物体间的关系和多张图像之间的特征信息以生成更为准确的标题,实验结果表明该模型在 MS COCO 数据集上表现突出,达到了 BLEU-1 得分 82.2 和 BLEU-2 得分 67.6。
Aug, 2021
本文提出了一种新颖的点云表示学习架构,称为 Dual Transformer Network (DTNet),该架构主要包括一个 Dual Point Cloud Transformer (DPCT) 模块,该模块通过同时聚合点和通道的多头注意力机制,从位置和通道的语义角度捕获更丰富的上下文依赖性,有效地实现了三维点云分类和分割任务中的终端到终端分析。
Apr, 2021
本研究提出一种深度耦合的卷积 - Transformer 框架用于高性能视频人员重识别,包括特征提取、空间互补学习、时间互补学习以及自蒸馏训练策略,并取得了更好的性能。
Apr, 2023
该论文提出了一种基于 Transformer 的图像去雨算法,结合了密集和稀疏自注意力机制,通过选择最有用的相似性值和空间增强的前馈网络来提高去雨效果。实验证明了该方法的有效性。
Aug, 2023
本文提出了一种使用卷积神经网络在像素级别取得可靠对应的方法,该模型可以同时作为密集特征描述符和特征检测器,并且在后期检测可以获得比传统低级结构的更稳定的关键点,从而实现了在无法获取更多注释信息的情况下训练该模型,该方法可以在难以定位的数据集(Aachen Day-Night localization dataset)和室内定位测试基准(InLoc indoor localization benchmark)中获得最先进的表现,同时在其他图像匹配和 3D 重建基准测试中也有竞争力。
May, 2019
本文提出了一种基于 Transformer 的图像描述模型,使用 SwinTransformer 提取网格级特征,一阶段完成训练并实现 end-to-end 生成描述,得到了 MSCOCO 数据集上 state-of-the-art 的表现。
Mar, 2022