基于网格式记忆的 Transformer 图像字幕生成

CVPRDec, 2019

基于网格式记忆的 Transformer 图像字幕生成

Meshed-Memory Transformer for Image Captioning

Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, Rita Cucchiara

TL;DR使用 M$^2$ - Meshed Transformer with Memory for Image Captioning 的架构，改进了图像编码和语言生成步骤；通过测试，证明该架构在单模型和集成配置上达到了新的最佳状态，尤其是在描述训练集中看不见的对象时表现优异。

Abstract

transformer-based architectures represent the state of the art in sequence modeling tasks like machine translation and language understanding. Their applicability to →

transformer-based architectures multi-modal contexts image captioning meshed transformer with memory state of the art

发现论文，激发创造

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

基于循环关系记忆网络的无监督图像描述生成

本文提出了一种基于记忆机制的无监督图像描述模型 —— 循环关系记忆网络 (R2M)，相较于 GAN 模型，该方法克服了句子生成中复杂和敏感的对抗学习，并且通过融合和循环两种记忆机制实现了从通用可视化概念到自然语言的翻译；我们在多项基准数据集上的实验证明，R2M 在参数少、计算效率高等各方面均优于目前最先进的技术。

Jun, 2020

M^2-Encoder: 大规模高效预训练推动双语图像 - 文本理解

我们介绍了一个包含 60 亿个图像 - 文本配对的双语（中英文）数据集 BM-6B，通过提出一种新颖的分组聚合方法来处理此规模的数据集，大大减少了通信开销和 GPU 内存需求，从而提高了训练速度，我们预训练了一系列双语图像 - 文本基础模型，并在 BM-6B 上取得了提升视觉和文本理解能力的成果，这些模型在多模态检索和分类任务方面树立了新的基准，并且我们的最大模型在零样本分类设置下，在 ImageNet 上的 top-1 准确率分别超过了以前报道的 SoTA 方法 2.2% 和 21.1%。

Jan, 2024

借助过去的一点点帮助：用于图像字幕的原型记忆网络

本文介绍了一种通过原型记忆模型，在处理其他训练样本时，可以执行对激活进行注意力操作的网络，并通过 COCO 数据集上的实验进行了评估。

Aug, 2023

用于视频字幕的多模态记忆建模

本文提出了一种多模态记忆模型 (M3)，利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力，该方法在公开基准数据集上的实验证明，相比于最先进的方法，本文提出的方法在 BLEU 和 METEOR 方面表现较好。

Nov, 2016

MAT: 图像字幕的多模态注意力翻译器

通过序列到序列的循环神经网络模型，从图像中提取对象序列并引入顺序注意力层，将图像的顺序信息自然地转化为单词序列，在 MS COCO 数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。

Feb, 2017

CPTR: 图像标注的全变压器网络

本研究提出了 CaPtion TransformeR （简称 CPTR）这一基于序列到序列（sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同，本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模，并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性，本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。

Jan, 2021

基于 Transformer 的分离模态交叉注意力 3D 人体网格恢复

本文研究了 Transformer Encoder 在 3D 人类网格重建上的应用。提出了一种名为 FastMETRO 的新型 Transformer Encoder-Decoder 结构，对输入标记的复杂性进行了解耦，并通过注意掩码和网格上采样操作引入人体形态学关系的先验知识来提高其收敛速度和准确性。在 Human3.6M 和 3DPW 数据集上，和基于图像的方法相比明显更有效。

Jul, 2022

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020

M2T2：多任务遮罩变形器用于以对象为中心的拾放

M2T2 是一种使用 Transformer 模型的单一模型，它能够供应不同类型的低级动作，在杂乱的场景中对任意对象进行稳定工作。训练于 128K 个场景的大规模合成数据集，M2T2 在真实机器人上实现了零样本仿真到现实的转换，在整体性能上超过了基准系统和最先进的任务特定模型约 19％，在需要重新定向以进行无碰放置的挑战性场景中超过了 37.5％。M2T2 还在 RLBench 的一部分以语言为条件的任务上实现了最先进的结果。项目网站提供了真实世界和仿真环境中未知对象的机器人实验视频。

Nov, 2023