视觉引导的生成式文档布局预训练
本文提出了一种名为 ViLTA 的新方法,由两个组件组成,旨在进一步促进模型在图像和文本对之间学习细粒度表示,采用交叉蒸馏方法生成软标签以提高模型的稳健性,并利用上下文合成硬负样本来增加图像 - 文本匹配的难度,从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。
Aug, 2023
本论文提出了一种基于多模态 Transformer 的分层框架(LAMPreT),并通过分层预训练来训练模型,以实现对文档布局的理解及其内部内容的分类和组合,来更好地进行文本块填充和图像建议两项任务。
Apr, 2021
LayoutLMv2 提出了一种新的预训练架构,通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制,在预训练阶段更好地捕获跨模态交互,实现在 FUNSD,CORD,SROIE,Kleister-NDA,RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。
Dec, 2020
本研究论文探讨了一种名为 MarkupLM 的预训练模型,它能够对 HTML/XML 等标记语言的文档进行理解和分析,相比现有的基于布局的预训练方法,在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明,该预训练模型在多个文档理解任务上,比现有的强基线模型表现更优秀。
Oct, 2021
本文提出了用于扫描文档图像的 LayoutLM 模型,实现了文本和布局信息的联合学习,将其应用于信息提取等实际文档图像理解任务中,成果在多项下游任务中达到最新的技术水平,代码和预训练模型可公开获取。
Dec, 2019
本文提出了一种弱监督的预训练方法 oCLIP,该方法通过联合学习视觉和文本信息来获取有效的场景文本表示,并能从弱注释文本中学习,可以有效地应对 OCR 任务。实验证明,该方法在多个公共数据集上都优于现有的预训练技术。
Mar, 2022
本文介绍了 VGT 模型,它是一种双流视觉格点变换器,通过提出并预训练 GiT 来实现 2D 令牌级和段级语义理解,利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外,还通过 D$^4$LA 数据集,在文档布局分析中达到了最新的最佳性能。
Aug, 2023
本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据上进行了验证,结果表明该方法在医学图像分割任务中的效果优异。
Jun, 2023
本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估,取得了在无监督设置下的最佳性能。
Mar, 2022
本论文旨在改进文本布局交互,提出了一种新的多模态预训练模型 LayoutMask,该模型使用本地 1D 位置作为布局输入,并具有两个预训练目标:掩码语言建模和掩码位置建模,LayoutMask 可以增强文本和布局模态之间的交互,并为下游任务生成自适应和鲁棒的多模态表示。
May, 2023