基于 Transformer 的多任务学习用于图像标题生成和物体检测

KDDMar, 2024

基于 Transformer 的多任务学习用于图像标题生成和物体检测

Transformer based Multitask Learning for Image Captioning and Object Detection

Debolena Basak, P.K. Srijith, Maunendra Sankar Desarkar

TL;DR本文介绍了一种创新的多任务学习框架，将图像描述和目标检测结合为一个联合模型。通过联合训练，该模型充分利用了两个任务之间的互补信息，使图像描述的性能得到改进。我们的方法利用了一种基于 Transformer 的架构，实现了端到端的网络集成，同时执行两个任务。通过对 MS-COCO 数据集进行全面的实验评估，我们的模型在图像描述文献中表现优于基线，BERTScore 提升了 3.65％。

Abstract

In several real-world scenarios like autonomous navigation and mobility, to obtain a better visual understanding of the surroundings, image captioning and →

autonomous navigation image captioning object detection multitask learning transformer-based architecture

发现论文，激发创造

一种可扩展、高效、有效的基于 Transformer 的物体检测器

本文介绍了 Vision 和 Detection Transformers（ViDT），ViDT 是一个有效和高效的物体检测器，它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器，并采用多尺度特征和辅助技术来提高检测性能，同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果，是目前完全基于 Transformer 的最佳物体检测器之一。

Apr, 2022

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021

图像字幕生成：物体到文字的转换

本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型，该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系，以几何关注的方式建模。结果表明，这种几何关注对图像描述非常重要，并在 MS-COCO 数据集上的各种标准评估指标上均有改进。

Jun, 2019

基于 Vision Transformer 的简单且高效网络用于伪装物体和显著物体检测

本文提出了一种简单而有效的基于 Vision Transformer（ViT）的网络（SENet），通过采用一种基于不对称 ViT 的编码器 - 解码器结构的简单设计，在隐藏目标检测和显著目标检测两个任务上取得了有竞争力的结果，在精细设计的复杂网络上展现出更大的多样性。

Feb, 2024

基于 Transformer 的目标检测

本文研究使用纯 Transformer 模型实现复杂视觉任务中的目标检测，发现 Vision Transformer 作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果，而且能够保持更高的图像分辨率。

Dec, 2020

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020

MAT: 图像字幕的多模态注意力翻译器

通过序列到序列的循环神经网络模型，从图像中提取对象序列并引入顺序注意力层，将图像的顺序信息自然地转化为单词序列，在 MS COCO 数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。

Feb, 2017

小目标检测中的 Transformer：现有技术的评估和调查

调查了 60 多个研究论文，涵盖了 2020 年至 2023 年开发的转换器在小目标检测任务上的性能，还提供了一个 12 个大规模数据集的列表以及使用常见指标（如 mAP，FPS，参数数量等）进行了性能比较。

Sep, 2023

将语义概念注入端到端图像字幕生成

本文提出了一种全新的视觉变换器（Vision transformer-based）图像标题模型 ViTCAP，使用网格表示而不提取区域特征。为了提高性能，引入了基于 Vision Transformer 的概念令牌网络（CTN），可以高效地预测语义概念，并将其整合到端到端的标题生成中，从而实现竞争性能，同时简化了结构。

Dec, 2021

自动驾驶的实时联合目标检测和语义分割网络

本论文提出了一种联合多任务网络设计，用于同时学习目标检测和语义分割，以实现低功耗嵌入式 SOC 上的实时性能，并在两个公共数据集（KITTI，Cityscapes）和私人鱼眼相机数据集中评估提出的网络。

Jan, 2019