ACLJul, 2023

UniFine: 一种用于零样本视觉 - 语言理解的统一和细粒度方法

TL;DR本文提出了一个统一的框架,以利用精细的信息实现零样本视觉语言学习,涵盖了多个任务,如视觉问题回答,SNLI-VE 和 VCR,并证实了该方法的有效性和泛化性。