AAAINov, 2022

基于对齐增强的补丁级预训练文档图像模型调优

TL;DR本文提出了一个新的模型结构,即 AETNet,使用带有对齐目标的下游任务进行 fine-tuning,同时引入了额外的可视化和文本转换器进行多模态融合,以实现更好的性能表现。该模型考虑了三个方面的对齐:文档级别对齐、全局 - 本地对齐和局部级别对齐,并在各种下游任务中实现了最先进的性能表现。