BriefGPT.xyz
大模型
Ask
alpha
关键词
text-rich scenarios
搜索结果 - 2
大型视觉 - 语言模型中利用对比学习增强视觉文档理解
利用对比学习框架 DoCo,该研究填补了大型视觉 - 语言模型在处理富文本场景中的细粒度特征缺失问题,提高了对文本丰富的文档的视觉表示,并在多个视觉文档理解基准上取得了优越的性能。
PDF
4 months ago
提升文档理解能力的研究:基于 MLLMs 的文本定位探索
在文档理解领域,本文提出了一种文本定位的文档理解模型,命名为 TGDoc,通过增强多模态大型语言模型(MLLMs)的能力来识别图像内文本的空间位置,以提高文本内容解释的准确性,从而提高对文本丰富图像的理解能力。实验证据表明,文本定位方法在多
→
PDF
7 months ago
Prev
Next