乌尔都语自然场景文本检测、识别和视觉问答的数据集和基准

May, 2024

乌尔都语自然场景文本检测、识别和视觉问答的数据集和基准

Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering

Hiba Maryam, Ling Fu, Jiajun Song, Tajrian ABM Shafayet, Qidi Luo...

TL;DR通过提供 1000 多幅自然场景图像，该研究提出了一个新的多任务乌尔都语场景文本数据集，用于文本检测、识别和视觉问答任务，并解决了之前数据集在面对任意形状文本时的限制。该数据集通过引入额外的标注点，方便了对能够处理多样文本布局、复杂形状和非标准方向的方法进行开发和评估，帮助进一步推动乌尔都语场景文本理解方法的发展。

Abstract

The development of urdu scene text detection, recognition, and Visual Question Answering (VQA) technologies is crucial for advancing accessibility, information retrieval, and linguistic diversity in digital conte

urdu scene text detection recognition visual question answering dataset annotation

发现论文，激发创造

ICDAR 2019 场景文本视觉问答竞赛

本文介绍了 ICDAR 2019 场景文本视觉问答比赛 (ST-VQA) 的最终结果和新数据集，包括 23038 张图像和 31791 个文本实例答案，涵盖广泛的情景。该竞赛共有 3 个递增的任务，需要理解场景中的文本并回答问题。提出了一种新的评估度量标准，旨在评估文本识别和图像理解两种关键能力。结果分析提供了 VQA 系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。

Jun, 2019

场景文本视觉问答

本文介绍了一个新数据集，即 ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019

利用机器学习技术促进不发达语言的发展：乌尔都语文本检测进展

本文开发了一个带有乌尔都文本的情景图像数据集，并提出使用机器学习方法从这些图像中检测乌尔都文本的方法，包括通过 MSER 方法提取文本区域、利用 SVM 分类器筛选非文本区域、HoG 特征训练第二个 SVM 分类器来进一步提高文本区域检测的性能。最终目的是为乌尔都文本检测研究提供数据资源，并突出该领域的挑战和研究空白。

Sep, 2022

NuScenes-QA: 一个针对自主驾驶场景的多模态视觉问答基准测试

我们介绍了一个新颖的视觉问答（VQA）任务，旨在回答基于街景线索的自然语言问题，在自动驾驶情境下。我们提出了 NuScenes-QA，这是第一个针对自动驾驶场景下的 VQA 任务的基准，包括 34K 个视觉场景和 460K 个问题 - 答案对。我们利用现有的 3D 检测注释生成场景图，并手动设计问题模板。这个基准是一个平衡的大规模基准，具有多种问题格式。

May, 2023

NuScenes-MQA：使用标记注释集成评估自动驾驶数据集的标题和问答

在自动驾驶中，视觉问答（VQA）是最重要的任务之一，要求准确的识别和复杂情况评估。本研究介绍了一种新型数据集标注技术 Markup-QA，其中问题回答被包含在标记中，该方法有助于同时评估模型在语句生成和 VQA 方面的能力。此外，通过使用这种标注方法，我们设计了 NuScenes-MQA 数据集，该数据集侧重于自动驾驶任务的描述能力和准确的问答，可为视觉语言模型的开发提供支持。

Dec, 2023

UQA: 乌尔都问答语料库

介绍了 UQA，一个用于乌尔都语（Urdu）问答和文本理解的新数据集，通过一种称为 EATS 的技术，将斯坦福问答数据集（SQuAD2.0）的答案段落的翻译上下文中的答案范围进行保留，在两个候选项（Google Translator 和 Seamless M4T）中选择和评估最佳翻译模型，并对 UQA 上的几个最先进的多语言问答模型进行基准测试，其中包括 mBERT，XLM-RoBERTa 和 mT5，报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果，证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。

May, 2024

关于证据的一般价值和双语场景文本视觉问答

该研究提出了一个多语言数据集，旨在解决视觉问题回答方法的泛化问题，利用基于推理的度量方法来鼓励泛化，并通过提供实验证据表明数据集的价值。

Feb, 2020

MUST-VQA: 多语言场景文本 VQA

本文提出了一个用于处理零样本多语言场景文本视觉问答的框架，该框架首先引入了更加通用的 MUST-VQA，在受限环境下进行了两种评估场景的讨论，并证明了模型在零样本环境下的可行性，同时进一步展示了将多语言模型适应于 STVQA 任务的有效性。

Sep, 2022

通过文本理解视频场景：来自基于文本的视频问答的洞察

研究人员广泛研究了视觉和语言领域，发现理解场景需要理解视觉和文字内容，特别是在视频中理解文字对于回答问题非常重要。本文集中探索了两个最近推出的数据集，NewsVideoQA 和 M4-ViteVQA，这两个数据集旨在通过文字内容进行视频问答。NewsVideoQA 数据集包含与新闻视频中的文本相关的问答对，而 M4-ViteVQA 包含来自不同类别（如视频博客、旅游和购物）的问答对。我们在各个层面上分析了这些数据集的构建情况，探讨了回答问题所需的视觉理解和多帧理解的程度。此外，本研究还进行了与仅文本模型 BERT-QA 的实验，结果显示在这两个数据集上，BERT-QA 的表现与原始方法相当，指示了这些数据集构建上的不足之处。此外，我们还探讨了域适应方面的问题，通过在 M4-ViteVQA 上进行训练并在 NewsVideoQA 上进行评估以及反之，从而探讨了跨领域训练的挑战和潜在好处。

Sep, 2023

视觉语言问答 (VLQA) 挑战赛

新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论，最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。

May, 2020