具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

SIGIRMay, 2020

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

Robust Layout-aware IE for Visually Rich Documents with Pre-trained Language Models

Mengxi Wei, Yifan He, Qiong Zhang

TL;DR本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

Abstract

Many business documents processed in modern NLP and IR pipelines are visually rich: in addition to text, their semantics can also be captured by visual traits such as layout, format, and fonts. We study the problem of information extraction from visually rich documents (VRDs) and prese

visually rich documents information extraction language model graph neural networks fine-tuning

发现论文，激发创造

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了 10% 的召回率改善。

Apr, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力

通过细粒度的奖励建模，ViGoR 框架显著提高了大型视觉语言模型在视觉 grounding 上的效果，该方法使用较便宜的人工评估和自动化方法，有效地减少了视觉输入的不准确性问题，并构建了一个用于验证视觉 grounding 能力的全面且具有挑战性的数据集。

Feb, 2024

在视觉 - 语言模型中实现交互式区域理解

通过引入具有明确区域建模能力的 RegionVLM 模型，并利用包含区域信息的 Localized Narratives 数据集，我们的实验表明，我们的单一通用模型不仅实现了交互式对话系统，还在各种零样本区域理解任务上展现出了卓越的性能，而不会损害其对全局图像的理解能力。

Mar, 2024

无图像的自然语言处理任务的视觉增强预训练语言模型

本文提出了一种新的视觉增强微调方法，名为 VAWI, 该方法能够将视觉语义注入到不同 PLMs 或自然语言处理任务中，通过使用视觉饥饿字词的固定 CLIP 文本编码器来产生视觉增强表示，引入了视觉语义，实验结果表明该方法能够改善 BERT、RoBERTa、BART 和 T5 的性能，并显著优于其他竞争基线。

Dec, 2022

利用大规模视频转录进展高分辨率视频语言表示

本文提出了一种高分辨率和多样化的视频 - 语言预训练模型（HD-VILA），它利用一个混合 Transformer 学习丰富的时空特征以及文本特征的交互，取得了 10 个 VL 理解任务和 2 个文本到视觉生成任务的最新结果

Nov, 2021

大规模视觉语言模型学习用于高效和高性能的部分相关视频检索的超级图像

提出一种高效和高性能的部分相关视频检索方法，通过使用超级图像、视觉编码和细调方法，实现了在 ActivityNet Captions 和 TVR 上的最佳性能。

Dec, 2023

MLLMs 增强的视觉 - 语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用 MLLMs 扩展每个图像的多个标题，通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得 5.6〜35.0％和 16.8〜46.1％的 R@1 提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对 MLLMs 的多方面使用的探索。

Nov, 2023

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022