Jul, 2023

PAT:用于越南语视觉问答的并行注意力变形器

TL;DR本文提出了一种称为 “Parallel Attention 机制” 的多模态学习新方案,并提出了 Hierarchical Linguistic Features Extractor 来提取语言特征,最终成功将这两个模块结合应用到了基准数据集 ViVQA,取得了比 SAAA 和 MCAN 等 SOTA 方法更好的性能表现。