Mar, 2022

XYLayoutLM:面向布局感知的多模态网络,用于视觉丰富的文档理解

TL;DR本论文提出了一种名为XYLayoutLM的鲁棒的布局感知多模态网络,它可以从通过 Augmented XY Cut 生成的正确阅读顺序中捕获和利用丰富的布局信息,并且提出了一种扩展有条件位置编码模块来处理变长输入序列,同时从文本和视觉模态中提取局部布局信息生成位置编码,并在文档理解任务上取得了竞争性的结果。