Dec, 2023

3VL:使用树结构教授视觉与语言模型组合概念

TL;DR通过引入树增强视觉语言(3VL)模型架构和训练技术,以及我们提出的锚定推理方法和差分相关性(DiRe)可解释性工具,本研究扩展任意图像 - 文本对的文本内容为分层树状结构,并将该结构引入模型学习的视觉表示,提高了模型的解释能力和组合推理能力,同时展示了锚定和差分相关性工具的应用。