Nov, 2024
认知与感知一致吗?评估与缓解文档理解中的多模态知识冲突
Is Cognition consistent with Perception? Assessing and Mitigating
Multimodal Knowledge Conflicts in Document Understanding
TL;DR本研究解决了多模态大型语言模型(MLLMs)在文档理解中感知与认知之间的冲突问题。论文提出了一种新的方法—多模态知识一致性微调,旨在先确保任务特定的一致性,然后连接认知和感知知识。研究发现,该方法显著减少了C