Dec, 2022

统一视觉、文本和版式,实现通用文档处理

TL;DR该研究提出了通用文档处理(UDOP)方法,使用Vision-Text-Layout Transformer对文本、图像和布局进行建模,实现了高质量的神经文档编辑和内容定制,是首个在文档AI领域一次性完成高质量文档编辑和内容定制的模型,并在金融报告、学术论文和网站等数据领域中实现了8种文档AI任务的最新成果。