Feb, 2024

大型视觉 - 语言模型中利用对比学习增强视觉文档理解

TL;DR利用对比学习框架 DoCo,该研究填补了大型视觉 - 语言模型在处理富文本场景中的细粒度特征缺失问题,提高了对文本丰富的文档的视觉表示,并在多个视觉文档理解基准上取得了优越的性能。