DocFormerv2: 文档理解的本地特征
LayoutLMv2提出了一种新的预训练架构,通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制,在预训练阶段更好地捕获跨模态交互,实现在FUNSD,CORD,SROIE,Kleister-NDA,RVL-CDIP和DocVQA等下游视觉丰富的文档理解任务上新的最先进结果。
Dec, 2020
本文介绍了基于多模态变压器的DocFormer架构,它以无监督预训练方式运行,能够更好地理解各种格式和布局的文档,并结合了文本、视觉和空间特征,实现了多模态自注意层和共享学习空间嵌入等特点,使其在四个数据集上均取得了业界领先的结果。
Jun, 2021
本文提出了一种名为Bi-VLDoc的预训练模型,该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用,以学习具有更丰富语义的更强的跨模态文档表示,并在模型效果上显著优于现有模型,包括文档理解、文档分类和文档视觉问答等领域。
Jun, 2022
FormNetV2引入了一种集中的多模态图形对比学习策略,将自监督预训练统一为一个损失,通过提取与图形边缘相连的一对令牌之间的边界框内的图像特征,捕捉更有针对性的视觉线索,从而在FUNSD、CORD、SROIE和Payment基准测试上建立新的最先进性能。
May, 2023
本文提出GenDoc,这是一个使用序列到序列模型进行预训练的通用文档理解模型,该模型采用编码器-解码器架构,可适应多种输出格式的下游任务,通过包括掩码图像令牌预测和掩码布局预测在内的多个任务进行预训练,采用分离的注意力和模态专家策略来有效地捕获每种模态利用的信息,实验结果显示,与最先进的方法相比,该模型具有更强的鲁棒性。
May, 2023
本文介绍了VGT模型,它是一种双流视觉格点变换器,通过提出并预训练GiT来实现2D令牌级和段级语义理解,利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外,还通过D$^4$LA数据集,在文档布局分析中达到了最新的最佳性能。
Aug, 2023
提出了一种名为DocBinFormer(文档二值化变换器)的基于视觉变换器的两级架构,用于有效地对文档图像进行二值化分析,该架构利用双级变换器编码器从输入图像中有效地捕获全局和局部特征表示,从而在系统生成和手写文档图像的分析中取得了改进的结果,并在DIBCO和H-DIBCO基准数据集上超过了现有技术的表现。
Dec, 2023
我们研究通过人工编写的指令,在真实世界的文档上完成各种视觉文档理解(VDU)任务,例如问答和信息提取。为此,我们提出了InstructDoc,这是第一个包含30个公开可用的VDU数据集的大规模集合,每个数据集都有统一格式的多样指令,涵盖了12项不同任务并包括多种文档类型/格式。此外,为了提高VDU任务的泛化性能,我们设计了一种新的基于指令的文档阅读和理解模型InstructDr,通过可训练的桥接模块连接了文档图像,图像编码器和大型语言模型(LLMs)。实验证明,通过给定的指令,InstructDr能够有效适应新的VDU数据集、任务和领域,且胜过现有的多模态LLMs和ChatGPT无需特定训练。
Jan, 2024
利用对比学习框架DoCo,该研究填补了大型视觉-语言模型在处理富文本场景中的细粒度特征缺失问题,提高了对文本丰富的文档的视觉表示,并在多个视觉文档理解基准上取得了优越的性能。
Feb, 2024
利用大量的训练数据,本文提出了一种高分辨率可视文件助手(HRVDA),该模型利用内容过滤机制和指令过滤模块分别过滤不确定内容和指令的可视标记,从而在高分辨率图像的模型训练和推理方面取得高效的性能,同时在多个文档理解数据集上实现了最先进的性能。
Apr, 2024