简单并不容易:文本 VQA 和 TextCaps 的简单强基准
本文提出了一种端到端的结构化多模态关注神经网络,通过使用图形表示和多模态图形注意网络设计来处理 TextVQA 中的可视文本问答问题,并通过全局 - 本地注意回答模块生成答案,其中使用了 OCR 和通用词汇识别技术。实验证明该模型在 TextVQA 数据集和 ST-VQA 数据集等两个任务中超过了 SoTA 模型。
Jun, 2020
提出了用于视觉问题回答的简单词袋基线模型,使用来自问题的单词特征和图像的 CNN 特征进行拼接以预测答案并在挑战性的 VQA 数据集上显示了与许多最新方法使用递归神经网络相当的性能。同时提供了交互式 Web 演示和开源代码以探索模型的优缺点。
Dec, 2015
VisualBERT 是一个简单灵活的框架,由一系列 Transformer 层组成,可以对输入的文本和相关的图像区域进行自我注意力对齐。该论文提出了两种针对预先训练 VisualBERT 的视觉语言模型目标,经过在四项视觉语言任务上的实验表明,VisualBERT 的表现优于或与最先进的模型不相上下,同时具有显著的简单性。进一步的分析表明,VisualBERT 可以将语言元素与图像区域相关联,而不需要任何明确的监督,并且甚至可以关注句法关系,例如跟踪动词与相应参数图像区域之间的关联。
Aug, 2019
这篇研究论文介绍了一种基于知识的视觉问答(KB-VQA)问题的方法,通过在上下文中进行高效的学习,使用问题相关的标题作为上下文信息,而无需训练或访问外部数据库或 API,实现了最先进的准确度。
Oct, 2023
该论文通过对现有公开的多模态模型进行综合研究,评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能,发现这些模型主要依赖于语义理解进行字识别,对单个字符形状的感知较差,同时对文本长度漠不关心,无法有效检测图像中的细粒度特征,在传统文本任务中尚无法与领域特定方法相媲美,面临更大的挑战。
May, 2023
TextVQA 问题解答中,我们提出了一种名为 Separate and Locate (SaL) 的新方法,该方法通过探索文本的上下文线索和设计空间位置嵌入来构建 OCR 文本之间的空间关系,从而在 TextVQA 和 ST-VQA 数据集上获得了较好的准确性改进,并且无需任何预训练任务。
Aug, 2023
本文提出了一种新的视频字幕生成方法,利用多种视觉特征和语义属性的层次,采用 LSTM 网络进行句子生成,实现自动选取最突出的视觉特征或语义属性,有望提高字幕生成的精确度。实验结果表明,该框架胜过现有最先进的方法,并可进一步提升精度至近于人类水平。
Dec, 2016
本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型,可以有效地推理图像中的文本内容,改进了 TextVQA 和 ST-VQA 两个关键指标,同时为视觉绑定的研究方向提供了新的思路。
Jul, 2020
本文主要介绍了一种将人名加入生成文本的新方法,通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型,我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的,我们修改了之前的多模态框架,接受来自任意数量的辅助分类器提供的相关信息。同时,我们创建了一个新的图像 - 标题数据集,名为 PAC,这个数据集包含了一些知名人物的图像和对这些图像的描述,这些描述中包含了人名。
Jul, 2022
本文提出了一种基于信心感知的非重复多模态 Transformer(CNMT)模型,通过优化 OCR 系统、加入置信度嵌入来选择关键词,并使用重复掩码在图片描述中避免重复,旨在提高文本阅读能力,避免预测重复单词,并在 TextCaps 数据集上取得了较好的表现,CIDEr 从 81.0 提高到 93.0。
Dec, 2020