关键词multimodal information extraction
搜索结果 - 4
- UMIE: 统一多模态信息提取与指导调整
多模态信息提取通过指令调整以解决当前面临的任务特定模型结构的持续问题,提供了一个统一的多模态信息提取器 UMIE,能够有效地提取文本和视觉提及,并在六个多模态信息提取数据集上的三个任务中在零样本模型、指令变体和可解释性方面都表现出强大的泛化 - EMNLP通过视觉 - 非对称一致性学习在文档图像中增强的语义实体识别
从视觉丰富的表单样式文档(VFDs)中提取属于预定义类别的有意义实体是一项具有挑战性的任务。本文提出了一种全新的 Vancl 方法,通过引入颜色先验知识来增强模型对细粒度视觉和布局特征的捕捉能力,并在基准数据集上实验证明我们的方法明显优于强 - I2SRM: 跨样本关系建模用于多模态信息提取
该论文介绍了用于多模态信息提取的 Intra- and Inter-Sample Relationship Modeling (I2SRM) 方法,其中包含两个模块:内部样本关系建模模块和样本之间关系建模模块。通过在单个样本上操作来学习有效 - 多模态问题回答的统一信息提取
利用我们提出的多模态问答(MQA)框架,将多模态信息提取(MIE)任务统一为一个统一的片段提取和多项选择问答流水线,从而提高了各种类型的现成大型多模态模型在 MIE 任务上的性能,特别是在零样本和少样本情况下,我们的框架能够使 LMM 在与