Jun, 2023

使用任务优化实现端到端文档分类和关键信息提取

TL;DR本文提出了一种基于端到端文档分类和关键信息提取的表格自动处理方法,其中采用了文本和布局编码技术,利用余弦相似度度量来对视觉上相似的文档进行分类,进而使用混合整数规划来提取文档中的关键信息,实验表明本方法对于文档预处理等优化技术具有重要作用,并取得了令人满意的实验效果。