IJCAIMay, 2023

Fast-StrucTexT:一种具有模态引导动态令牌合并的高效沙漏变压器模型,用于文档理解

TL;DR提出了 Fast-StrucTexT,这是一种基于 StrucTexT 算法的高效多模态框架,并使用沙漏变压器结构进行视觉文档理解,具有较高的性能和效率,可表示多粒度表示。SCA 与动态令牌合并块一起使用,以实现文档布局表示的平衡,以获得与现有技术相比 1.9 倍的快速推理时间。