ICCVAug, 2023

通过时空事件图解释视觉与语言

TL;DR人工智能在填补视觉与语言之间的差距方面取得了重大进展,但我们仍然远未从语言的角度理解、解释和显式地控制视觉内容,因为两个领域之间仍然缺乏一个共同的可解释表示。在本研究中,我们针对这个限制提出了 “时空事件图(GEST)”,通过它我们可以表示、创建和解释视觉和语言故事。我们提供了我们模型的理论证明和实验验证,证明 GEST 能为强大的深度学习模型带来有实质性的补充价值。特别是,GEST 可以在内容层面上提高从文本生成视频的能力,通过轻松地融入我们的创新视频生成引擎。此外,通过使用高效的图匹配技术,GEST 图还可以改进语义层面上的文本比较。