May, 2023

视觉思维链:多模态填充填补逻辑间隙

TL;DR通过视觉增强实现 VCoT 方法,利用多模态填充降低序列数据中的逻辑间隙,改善下游任务的表现及对模型的多步推理提供可解释性。在视觉叙事和 WikiHow 摘要数据集上,VCoT 方法通过人类评估超越了思维链基线模型,提供了新的、一致的合成数据增强。