Nov, 2024

认知与感知一致吗?评估与缓解文档理解中的多模态知识冲突

TL;DR本研究解决了多模态大型语言模型(MLLMs)在文档理解中感知与认知之间的冲突问题。论文提出了一种新的方法—多模态知识一致性微调,旨在先确保任务特定的一致性,然后连接认知和感知知识。研究发现,该方法显著减少了C