VieCap4H-VLSP 2021：基于注意力机制的对象关系变换器在越南图片字幕生成中的性能优化

MMNov, 2022

VieCap4H-VLSP 2021：基于注意力机制的对象关系变换器在越南图片字幕生成中的性能优化

VieCap4H-VLSP 2021: ObjectAoA-Enhancing performance of Object Relation Transformer with Attention on Attention for Vietnamese image captioning

PDF

Nghia Hieu Nguyen, Duong T.D. Vo, Minh-Quan Ha

TL;DR本研究提出了一种有效的方法来改进基于转换器的图像理解方法，通过在对象关系转换器结构上扩展 Attention on Attention 机制，实验表明我们的方法在 VLSP 举办的 Image Captioning 共享任务的公共测试和私人测试中显著优于原始结构。

Abstract

image captioning is currently a challenging task that requires the ability to both understand visual information and use human language to describe this visual information in the image. In this paper, we propose an efficient way to improve the image understanding ability of

image captioning transformer-based method object relation transformer attention on attention vlsp

发现论文，激发创造

使用 Swin Transformer 和基于 Attention 的 LSTM 进行医疗领域的越南语图像字幕生成 (VieCap4H-VLSP 2021)

本研究提出了一个在医疗保健领域中使用的自动越南语图像字幕生成模型，使用 Swin Transformer 和 LSTM 与关注模块作为编码器和解码器，最终在 VLSP Challenge 2021 中获得第三名的成绩。

Sep, 2022

图像字幕生成：物体到文字的转换

本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型，该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系，以几何关注的方式建模。结果表明，这种几何关注对图像描述非常重要，并在 MS-COCO 数据集上的各种标准评估指标上均有改进。

Jun, 2019

使用视觉注意力的神经图像字幕生成

该论文介绍了一种基于注意力机制的模型，通过机器翻译和物体检测实现图像内容的自动描述，通过最大化变分下界确定性训练该模型，并展示了该模型在生成输出序列时能够自动学习聚焦于显著物体。三个基准数据集上的性能表现也证明了该模型的有效性。

Feb, 2015

针对检索的目标感知视频语言预训练

本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers，使用边界框和物体标签来引导训练过程，将对象表示法引入视频 - 语言架构中，从而提高了视频文本匹配任务的性能。

Dec, 2021

PAT：用于越南语视觉问答的并行注意力变形器

本文提出了一种称为 “Parallel Attention 机制” 的多模态学习新方案，并提出了 Hierarchical Linguistic Features Extractor 来提取语言特征，最终成功将这两个模块结合应用到了基准数据集 ViVQA，取得了比 SAAA 和 MCAN 等 SOTA 方法更好的性能表现。

Jul, 2023

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

组合对象关系和属性进行图像 - 文本匹配

本研究中，我们通过引入场景图表示图像标题，利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型，能高效地编码物体 - 属性和物体 - 物体的语义关系，通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验，证明了相对于计算成本高的交叉注意方法，CORA 在召回得分上具有优势，同时实现了双编码器的快速计算速度。

Jun, 2024

利用偏序关系引导注意力进行图像字幕生成

本文提出了一种引导式的注意力网络机制，将图像的空间特征、主题的高级信息以及生成的字幕的时间上下文嵌入到一个有序的嵌入空间中进行训练，采用成对的排序目标函数，该模型在 MSCOCO 数据集上表现出与众多最先进模型相媲美的竞争力。

Apr, 2022

BARTPhoBEiT：面向越南视觉问答的预训练序列到序列和图像变换模型

我们引入了一种基于 Transformer 的越南模型 BARTPhoBEiT，该模型包括了预训练的越南序列到序列和双向编码器表示，用于评估越南语 VQA 数据集，并在准确度、精确度、召回率、F1 得分、WUPS 0.0 和 WUPS 0.9 等六个指标上优于强基准模型和现有最先进模型。

Jul, 2023

图像字幕注意力区域

提出了基于注意力机制的图像描述模型，该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系，并运用空间变换器来生成最佳的区域关注机制，达到了 MSCOCO 数据集上的最佳结果。

Dec, 2016