IJCAIMay, 2023
Fast-StrucTexT:一种具有模态引导动态令牌合并的高效沙漏变压器模型,用于文档理解
Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding
Mingliang Zhai, Yulin Li, Xiameng Qin, Chen Yi, Qunyi Xie...
TL;DR提出了 Fast-StrucTexT,这是一种基于 StrucTexT 算法的高效多模态框架,并使用沙漏变压器结构进行视觉文档理解,具有较高的性能和效率,可表示多粒度表示。SCA 与动态令牌合并块一起使用,以实现文档布局表示的平衡,以获得与现有技术相比 1.9 倍的快速推理时间。