Feb, 2024
大型视觉 - 语言模型中利用对比学习增强视觉文档理解
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models
Xin Li, Yunfei Wu, Xinghua Jiang, Zhihao Guo, Mingming Gong...
TL;DR利用对比学习框架 DoCo,该研究填补了大型视觉 - 语言模型在处理富文本场景中的细粒度特征缺失问题,提高了对文本丰富的文档的视觉表示,并在多个视觉文档理解基准上取得了优越的性能。