通过视觉 - 非对称一致性学习在文档图像中增强的语义实体识别

EMNLPOct, 2023

通过视觉 - 非对称一致性学习在文档图像中增强的语义实体识别

Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning

Hao Wang, Xiahua Chen, Rui Wang, Chenhui Chu

TL;DR从视觉丰富的表单样式文档（VFDs）中提取属于预定义类别的有意义实体是一项具有挑战性的任务。本文提出了一种全新的 Vancl 方法，通过引入颜色先验知识来增强模型对细粒度视觉和布局特征的捕捉能力，并在基准数据集上实验证明我们的方法明显优于强大的 LayoutLM 系列基线，展示了该方法的有效性，并通过研究不同的颜色方案对该方法的影响，为优化模型性能提供了启示。我们相信我们的工作将激发未来的多模态信息提取研究。

Abstract

Extracting meaningful entities belonging to predefined categories from visually-rich form-like documents (VFDs) is a challenging task. Visual and layout features such as font, background, color, and bounding box location and size provide important cues for identifying entities of the s

visually-rich form-like documents visual and layout features vancl approach color priors multimodal information extraction

发现论文，激发创造

大型视觉 - 语言模型中利用对比学习增强视觉文档理解

利用对比学习框架 DoCo，该研究填补了大型视觉 - 语言模型在处理富文本场景中的细粒度特征缺失问题，提高了对文本丰富的文档的视觉表示，并在多个视觉文档理解基准上取得了优越的性能。

Feb, 2024

面向任务个性化的多模态少样本学习在视觉丰富的文档实体检索中的应用

本研究旨在解决实体级少样本视觉文档实体检索 (VDER) 任务的挑战，并通过引入任务感知的元学习框架以及新的数据集 FewVEX，显著提高了流行的元学习基准模型的鲁棒性。

Nov, 2023

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

视觉实体的可迁移解码用于零样本图像字幕生成

我们提出了 ViECap，一种可转移的解码模型，利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体，实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况下，ViECap 能够在从域内到域外的场景转移中保持性能。大量实验证明了 ViECap 在跨域（可转移）字幕生成方面的最新水平，并与以前基于 VLMs 的零样本方法在域内字幕生成方面有竞争力。

Jul, 2023

基于 LayoutLMv3 的增强关系抽取模型在视觉丰富文档中的应用

通过对 FUNSD 和 CORD 数据集上进行的广泛剖析研究及对 LayoutLMv3 的初始化，我们提出了一个模型，用于在视觉丰富的文档中进行关系抽取，其结果超过了当前行业的最佳效果，且没有特定的预训练任务和较少的参数。

Apr, 2024

基于语义感知的注意力神经嵌入在基于图像的视觉定位中的应用

提出了一种新的，综合了外观和语义信息的 2D VL 定位方法，该方法使用多模态线索生成稳健的嵌入向量，其中利用了场景的语义布局的不变性，并提出了一个基于深度学习的注重注意力的框架来指导嵌入向量生成的过程，在三个具有挑战性的本地化数据集上测试，平均绝对提高了 19％，并且通过对模型各个组件进行广泛研究，证明了语义信息和注意模块的贡献。

Dec, 2018

使用大型视觉 - 语言模型学习文本的视觉特征

该论文提出了一种基于大型视觉语言模型 CLIP 的 fine-tuning 策略，用于从文本中评分文本的视觉性，并对其进行分类，得到了比其他方法更好的结果，并展示了文本视觉性对于文本生成任务的重要性。

May, 2023

大规模无噪声预训练下的文档实体检索

本文提出了一种从网络上收集海量、嘈杂、弱标注数据的方法，以弥补许多 VDER 设置中训练数据不足的缺陷，也给出了一个名为 DocuNet 的收集数据集，它不需要依赖特定文档类型或实体集，从而在各种 VDER 任务中通用应用。借助 DocuNet，我们提出了一种轻量级多模态体系结构 UniFormer，在没有额外的视觉相关性的情况下从文本、布局和图像裁剪中学习统一的表征。在不同的设置中实验我们的方法并展示了在传统实体检索和少样本学习设置中，当将这个大规模数据集与 UniFormer 相结合时的改进。

Jun, 2023

从对比对抗样本中学习视觉基础语义

该研究旨在解决将文本的分布式表示与视觉域进行关联的问题。通过对视觉语义嵌入的深入研究，提出了基于语言规则和 WordNet 知识库的对抗样本技术，通过在 MS-COCO 图像字幕数据集上的评估取得了良好效果。

Jun, 2018

基于共识感知的视觉 - 语义嵌入用于图像 - 文本匹配

本文提出一种共识感知的视觉 - 语义嵌入模型（CVSE），以将共识信息，即图像文字的基础知识，融入到图像 - 文本匹配中，并通过构建概念相关性图来实现共识信息的利用，以及通过实例级表示为两种模态学习图像和文本之间的关联和对准。实验表明，相较于先进的方法，利用共识信息对构建更有意义的视觉 - 语义嵌入具有优越的性能，特别是在双向图像和文本检索任务上。

Jul, 2020