ViCLEVR：一种用于越南视觉问答的视觉推理数据集和混合多模态融合模型

Oct, 2023

ViCLEVR：一种用于越南视觉问答的视觉推理数据集和混合多模态融合模型

ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese

Khiem Vinh Tran, Hao Phu Phan, Kiet Van Nguyen, Ngan Luu Thuy Nguyen

TL;DR通过引入具有开拓性质的 ViCLEVR 数据集，该研究对当代视觉推理系统进行了全面分析，提出了一种综合的多模态融合模型 PhoVIT，并在四个评估指标上取得了最先进的性能，进一步促进了针对低资源语言的多模态融合算法的发展。

Abstract

In recent years, visual question answering (VQA) has gained significant attention for its diverse applications, including intelligent car assistance, aiding visually impaired individuals, and document image information retrieval using natural language queries. VQA requires effective in

visual question answering viclevr dataset visual reasoning capabilities multimodal fusion low-resource languages

发现论文，激发创造

OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型

本文介绍了 OpenViVQA：首个包含越南语开放式答案的大规模 VQA 数据集，包括 11,000 + 图像和 37,000+ 问答对，并提出了三个融合图像和答案信息的方法（FST，QuMLAG 和 MLPAG），并使用这些融合的特征构建答案，旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法，结果与 SOTA 模型竞争力相当。

May, 2023

ViOCRVQA：视觉问答的新型基准数据集和理解图像中越南文本的视觉阅读器

通过提供一个新的数据集 ViOCRVQA，这篇研究论文在 OCR-VQA 任务中引入了一种称为 VisionReader 的新方法，并对该数据集进行了实验，揭示了越南数据集所固有的挑战和困难。

Apr, 2024

ViTextVQA：用于评估图像中越南文本理解的大规模视觉问答数据集

通过对 OCR 文本中令牌的处理和选择顺序的细致实验，我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。

Apr, 2024

VLSP2022-EVJVQA 挑战：多语言视觉问答

本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA，用于评估多语言 VQA 系统或模型，并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果，其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。

Feb, 2023

CLEVR-X：自然语言解释的视觉推理数据集

本文介绍了一个基于机器学习的可视化问答生成自然语言解释过程的方法，使用 CLEVR-X 数据集进行自然语言解释的基线结果分析，以及研究了不同问题和不同数量的真实解释对自然语言生成质量的影响。

Apr, 2022

CLEVR3D：3D 实际场景中的组合语言与基本视觉推理问答

本文提出了在 3D 真实世界场景中进行视觉问答任务的 VQA-3D，并介绍了第一个 VQA-3D 数据集 CLEVR3D 和基于 Transformer 架构的 VQA-3D 基准模型 TransVQA3D。实验证明，将 VQA-3D 作为辅助任务可以提高 3D 场景理解的性能。

Dec, 2021

视觉语言问答 (VLQA) 挑战赛

新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论，最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。

May, 2020

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

CLEVR：一个用于组合语言和初级视觉推理的诊断数据集

通过建立人工智能系统，以便对视觉数据进行推理和回答问题，我们需要有诊断测试来分析进展并发现缺点。该研究提出了一种诊断数据集，测试了各种视觉推理能力，包含最小的偏差并具有详细注释，描述每个问题需要的推理类型，用于分析各种现代视觉推理系统，提供了新的洞见，以及它们的能力和限制。

Dec, 2016

超级 CLEVR：诊断视觉推理领域鲁棒性的虚拟基准测试

通过 Super-CLEVR 虚拟基准测试数据，我们研究了不同领域转移的因素，考察了四种现有的 VQA 方法，两种神经符号方法和两种非符号方法以及我们提出的方法 P-NSVQA，发现结合不确定性推理，将推理和感知分离形成一个强大的基于视觉与前因关系问题答案模型，可以更好地应对域迁移。

Dec, 2022