BriefGPT.xyz
大模型
Ask
alpha
关键词
document image understanding
搜索结果 - 3
ICLR
StrucTexTv2: 遮蔽式视觉文本预测用于文档图像预训练
本文提出了一种名为 StrucTexTv2 的有效的文档图像预训练框架,通过执行掩码视觉 - 文本预测。它由两个自我监督的预训练任务组成:掩码图像建模和掩码语言建模,基于文本区域级别的图像掩码。经实验验证,该模型在文档图像理解的各个下游任务
→
PDF
a year ago
CVPR
SelfDoc: 自我监督文件表示学习
SelfDoc 是一个文档图像理解的任务无关的预训练框架,利用文档的位置、文本和视觉信息,并建模内容块之间的上下文关系,提出了一种新的跨模态学习模型,优于现有模型,同时具有自适应的视觉语言融合机制并应用自监督模型预训练,与以前作品相比,使用
→
PDF
3 years ago
KDD
LayoutLM: 文本和布局的文档图像理解预训练
本文提出了用于扫描文档图像的 LayoutLM 模型,实现了文本和布局信息的联合学习,将其应用于信息提取等实际文档图像理解任务中,成果在多项下游任务中达到最新的技术水平,代码和预训练模型可公开获取。
PDF
5 years ago
Prev
Next