Jun, 2024

DistilDoc: 视觉内容丰富文档应用的知识蒸馏

TL;DR针对视觉丰富的文档应用(如文档布局分析和文档图像分类),本文探讨了知识蒸馏(KD)。通过设计一种KD实验方法,我们研究了不同架构和容量的骨干模型之间的知识传递策略对教师-学生知识差距的影响,并发现一些方法可以始终优于监督学生训练。此外,我们设计了下游任务设置,评估了蒸馏的布局分析模型在零样本布局感知文档视觉问答上的鲁棒性,结果表明存在较大的知识差距,强调进一步探索如何高效获得更多的语义文档布局意识的必要性。