ViOCRVQA：视觉问答的新型基准数据集和理解图像中越南文本的视觉阅读器

Apr, 2024

ViOCRVQA：视觉问答的新型基准数据集和理解图像中越南文本的视觉阅读器

ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images

PDF

Huy Quang Pham, Thang Kien-Bao Nguyen, Quan Van Nguyen, Dan Quang Tran, Nghia Hieu Nguyen...

TL;DR通过提供一个新的数据集 ViOCRVQA，这篇研究论文在 OCR-VQA 任务中引入了一种称为 VisionReader 的新方法，并对该数据集进行了实验，揭示了越南数据集所固有的挑战和困难。

Abstract

optical character recognition - visual question answering (ocr-vqa) is the task of answering text information contained in images that have just been significantly developed in the English language in recent year

optical character recognition - visual question answering ocr-vqa viocrvqa dataset visionreader

发现论文，激发创造

ViTextVQA：用于评估图像中越南文本理解的大规模视觉问答数据集

通过对 OCR 文本中令牌的处理和选择顺序的细致实验，我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。

Apr, 2024

ViCLEVR：一种用于越南视觉问答的视觉推理数据集和混合多模态融合模型

通过引入具有开拓性质的 ViCLEVR 数据集，该研究对当代视觉推理系统进行了全面分析，提出了一种综合的多模态融合模型 PhoVIT，并在四个评估指标上取得了最先进的性能，进一步促进了针对低资源语言的多模态融合算法的发展。

Oct, 2023

OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型

本文介绍了 OpenViVQA：首个包含越南语开放式答案的大规模 VQA 数据集，包括 11,000 + 图像和 37,000+ 问答对，并提出了三个融合图像和答案信息的方法（FST，QuMLAG 和 MLPAG），并使用这些融合的特征构建答案，旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法，结果与 SOTA 模型竞争力相当。

May, 2023

VLSP2022-EVJVQA 挑战：多语言视觉问答

本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA，用于评估多语言 VQA 系统或模型，并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果，其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。

Feb, 2023

面向能够阅读的 VQA 模型

我们研究了盲人用户在看不到图片的情况下经常关注的图像内容，即图片中的文本，并介绍了一种名为 LoRRA 的新模型用于解决这个问题，同时提出了一个名为 TextVQA 的数据集来评估和改进模型表现。

Apr, 2019

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

一份用于评估机器阅读理解的越南语数据集

本研究为缺乏基准数据集的低资源语言（如越南语）创建了一个新的数据集 UIT-ViQuAD，包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现和最佳模型表现的结果，结果表明，未来的研究可以提高越南 MRC 的准确度和性能。

Sep, 2020

视觉问答：数据集、算法和未来挑战

本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答（VQA）的研究，包括问题定义、数据集、算法和评估指标，并深入探讨了当前数据集在训练和评估 VQA 算法方面的局限性，全面回顾了现有的 VQA 算法，最后讨论了 VQA 和图像理解研究的可能未来方向。

Oct, 2016

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

视觉语言问答 (VLQA) 挑战赛

新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论，最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。

May, 2020