VSA4VQA: 将矢量符号体系扩展到自然图像的视觉问答中

May, 2024

VSA4VQA: 将矢量符号体系扩展到自然图像的视觉问答中

VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images

Anna Penzkofer, Lei Shi, Andreas Bulling

TL;DR提出了一种名为 VSA4VQA 的新型 VSAs 的实施，它是第一个将 VSA 扩展到复杂空间查询的模型，并通过引入学习的空间查询掩模和预训练的视觉 - 语言模型来解决视觉问题回答任务，评估结果表明它能够有效地编码自然图像，并取得与最先进的深度学习方法竞争性的性能。

Abstract

While vector symbolic architectures (VSAs) are promising for modelling spatial cognition, their application is currently limited to artificially generated images and simple spatial queries. We propose

vector symbolic architectures vsa4vqa spatial cognition visual question answering gqa benchmark dataset

发现论文，激发创造

基于向量符号架构的非配对图像转换

使用矢量符号结构（VSA）作为理论框架，将 VSA 约束应用于对抗学习，通过学习矢量映射来反转翻译，以确保与源内容的一致性，从而提高了图像翻译的效果。

Sep, 2022

向量符号架构的比较

本文提出了 11 种可用的 VSA 实现，并讨论了它们在底层向量空间和操作符方面的相似性和差异性，并通过实验比较了它们的容量、非精确解绑操作的逼近质量、混合捆绑和绑定操作对查询响应性能的影响以及在两个示例应用程序中的性能。

Jan, 2020

神经符号 VQA: 从视觉和语言理解中分离推理

该论文介绍了神经符号视觉问答系统，结合深度表示学习和符号程序执行，具有更好的数据和内存效率以及对推理过程的全透明度。

Oct, 2018

解决渡鸦先知测试的神经矢量符号架构

利用我们提出的神经向量符号架构（NVSA）对 Raven's 渐进矩阵数据集进行端到端训练，N VSA 的平均准确率达到了 87.7％，而 I-RAVEN 数据集则为 88.1％。与神经符号方法内的符号推理相比，NVSA 的概率推理具有两个数量级的更快速度。

Mar, 2022

基于自注意力的矢量符号结构的语义分解

基于自注意力的更新规则和 Hopfield 网络的 log-sum-exp 能量函数及范数限制状态的新变体共振器网络被引入，可显著提高性能和收敛速度，使得算法具有更大的关联记忆能力，可应用于感知基模式识别、场景分解和物体推理等多个任务。

Mar, 2024

WebQA：多跳和多模态 QA

本论文中，我们提出了 WebQA，它引入了一个具有挑战性的新测量标准，该标准涉及大规模最先进模型的困难之处，缺乏新颖对象的语言基础视觉表达和推理能力，但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型，这些模型可以回答问题，而不考虑源模态，从而使我们更接近不仅查询语言知识，而且查询更丰富的视觉在线世界的数字助手。

Sep, 2021

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

图形化结构表示用于视觉问题回答

本文提出通过建立基于场景信号和问题信息的图结构，应用深度神经网络分析问题的方法来提升视觉问答（VQA）的性能，相比于基于 CNN/LSTM 的 VQA 方法，本方法获得了显著的改善，其准确性从 71.2％提高到 74.4％，在不同的 “平衡” 场景中的准确性则提高了 4.4％。

Sep, 2016