May, 2023

视觉和语言之间的事件时空图作为共同表征的 GEST

TL;DR本论文研究了人类能够无缝地建立世界内部表征能力,并通过一种明确的视觉和语言表征 - 时空事件图(GEST)来理解和仿效此能力。使用 GEST,我们可以通过图形匹配以语义和完全可解释的方式衡量文本和视频之间的相似性,并从提供良好理解的内容的共同表示中生成文本和视频。在本文中,我们表明,基于 GEST 的图形匹配相似度度量优于经典文本生成度量,并且还可以提高经过深度训练的度量的性能。