场景文本视觉问答
本文介绍了 ICDAR 2019 场景文本视觉问答比赛 (ST-VQA) 的最终结果和新数据集,包括 23038 张图像和 31791 个文本实例答案,涵盖广泛的情景。该竞赛共有 3 个递增的任务,需要理解场景中的文本并回答问题。提出了一种新的评估度量标准,旨在评估文本识别和图像理解两种关键能力。结果分析提供了 VQA 系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。
Jun, 2019
研究人员广泛研究了视觉和语言领域,发现理解场景需要理解视觉和文字内容,特别是在视频中理解文字对于回答问题非常重要。本文集中探索了两个最近推出的数据集,NewsVideoQA 和 M4-ViteVQA,这两个数据集旨在通过文字内容进行视频问答。NewsVideoQA 数据集包含与新闻视频中的文本相关的问答对,而 M4-ViteVQA 包含来自不同类别(如视频博客、旅游和购物)的问答对。我们在各个层面上分析了这些数据集的构建情况,探讨了回答问题所需的视觉理解和多帧理解的程度。此外,本研究还进行了与仅文本模型 BERT-QA 的实验,结果显示在这两个数据集上,BERT-QA 的表现与原始方法相当,指示了这些数据集构建上的不足之处。此外,我们还探讨了域适应方面的问题,通过在 M4-ViteVQA 上进行训练并在 NewsVideoQA 上进行评估以及反之,从而探讨了跨领域训练的挑战和潜在好处。
Sep, 2023
通过对 OCR 文本中令牌的处理和选择顺序的细致实验,我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。
Apr, 2024
本文通过实验探讨使用场景图(Scene Graphs)解决视觉问答(Visual Question Answering)任务。作者采用图像 + 问题架构研究场景图的各种生成技术,建议一套训练课程以利用人类注释和自动生成的场景图,并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决 VQA 的多方面研究,是其类型中的首次探索。
Jan, 2021
我们研究了盲人用户在看不到图片的情况下经常关注的图像内容,即图片中的文本,并介绍了一种名为 LoRRA 的新模型用于解决这个问题,同时提出了一个名为 TextVQA 的数据集来评估和改进模型表现。
Apr, 2019
通过提供 1000 多幅自然场景图像,该研究提出了一个新的多任务乌尔都语场景文本数据集,用于文本检测、识别和视觉问答任务,并解决了之前数据集在面对任意形状文本时的限制。该数据集通过引入额外的标注点,方便了对能够处理多样文本布局、复杂形状和非标准方向的方法进行开发和评估,帮助进一步推动乌尔都语场景文本理解方法的发展。
May, 2024
本文提出了一种多通道的方法,既利用场景文本和视觉通道提取和编码图像信息,又建模它们之间的相互作用,生成具有更丰富语义的上下文联合嵌入,并在检索和分类任务上展示了其有效性。
May, 2019