EMNLPNov, 2023

ViStruct: 基于课程引导的代码 - 视觉表征的视觉结构知识提取

TL;DR在这项研究中,我们提出了 ViStruct,这是一个用于学习视觉结构知识提取的训练框架,它通过两个新颖的设计元素来改进最新的视觉 - 语言模型(VLMs)在结构化知识抽取方面的性能限制。