Jun, 2024

多模态大型语言模型 (LLM) 用于平面旋转文档中的结构化数据提取的鲁棒性

TL;DR探究多模态大型语言模型在文档中存在的旋转问题对数据提取准确性的影响,鉴别出各模型的安全平面旋转角,并研究旋转对模型幻觉的影响,探索现有的旋转检测与修正机制,并提出了包括开发更具鲁棒性的多模态架构和在模型预训练阶段引入旋转技术的替代方法,同时强调有关使用多模态大型语言模型进行信息提取的真实场景中的挑战和机遇需进行更全面的测试。