TinyVQA: 资源受限设备上用于视觉问答的紧凑多模态深度神经网络

Apr, 2024

TinyVQA: 资源受限设备上用于视觉问答的紧凑多模态深度神经网络

TinyVQA: Compact Multimodal Deep Neural Network for Visual Question Answering on Resource-Constrained Devices

Hasib-Al Rashid, Argho Sarkar, Aryya Gangopadhyay, Maryam Rahnemoonfar, Tinoosh Mohsenin

TL;DR本文提出了 TinyVQA，一种用于资源受限的小型机器学习硬件上运行的视觉问答任务的新型多模态深度神经网络。通过使用监督式注意力模型来学习如何使用视觉和语言模态回答图像相关问题，TinyVQA 在 FloodNet 数据集上取得了 79.5％的准确率，同时在嵌入式系统上部署具有低延迟和低功耗。

Abstract

Traditional machine learning models often require powerful hardware, making them unsuitable for deployment on resource-limited devices. Tiny Machine Learning (tinyML) has emerged as a promising approach for running machine learning models on these devices, but integrating multiple data modalities into tinyML models still remains a challenge due to increased

tiny machine learning multimodal deep neural network visual question answering resource-constrained embedded systems

发现论文，激发创造

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型

本文介绍了 OpenViVQA：首个包含越南语开放式答案的大规模 VQA 数据集，包括 11,000 + 图像和 37,000+ 问答对，并提出了三个融合图像和答案信息的方法（FST，QuMLAG 和 MLPAG），并使用这些融合的特征构建答案，旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法，结果与 SOTA 模型竞争力相当。

May, 2023

视觉问答技巧：2017 年挑战赛收获

本文介绍了一个用于视觉问答（VQA）的最先进模型，这个模型在 2017 年的 VQA 挑战中获得了第一名。通过对超过 3,000 个 GPU 小时的架构和超参数的深入探索，我们发现了许多用于提高性能的 Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。

Aug, 2017

RankDVQA-mini: 知识蒸馏驱动的深度视频质量评估

通过使用剪枝驱动的模型压缩和多层级知识蒸馏的两阶段工作流程，我们成功地显著减小了排名型深度视频质量评估方法 RankDVQA 的模型大小和运行时间，得到了一个轻量级的质量度量指标 RankDVQA-mini，其参数量不到原始版本的 10%（FLOPs 为原版本的 14%），但在质量预测性能上超过了大部分现有的深度视频质量评估方法。

Dec, 2023

学习用于视觉问答的稀疏专家混合模型

本文提出了一种模块化的神经架构，特别针对 VQA 任务中的卷积神经网络模块，通过网络的稀疏性提高了模型的运行效率，实验表明其可与传统的 CNN VQA 模型相媲美。

Sep, 2019

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强 VQA 模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023

WebQA：多跳和多模态 QA

本论文中，我们提出了 WebQA，它引入了一个具有挑战性的新测量标准，该标准涉及大规模最先进模型的困难之处，缺乏新颖对象的语言基础视觉表达和推理能力，但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型，这些模型可以回答问题，而不考虑源模态，从而使我们更接近不仅查询语言知识，而且查询更丰富的视觉在线世界的数字助手。

Sep, 2021

视觉问题回答的忠实多模态解释

本文提出了一种新颖的方法，开发了一个高性能的 VQA 系统，能够通过集成的文本和视觉解释阐述其答案，并捕捉到深度神经网络推理的重要方面，从而比竞争方法具有更好的自动化和人类评估指标。

Sep, 2018

VLSP2022-EVJVQA 挑战：多语言视觉问答

本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA，用于评估多语言 VQA 系统或模型，并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果，其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。

Feb, 2023

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019