ECCVApr, 2020

VisualCOMET:推理静态图像的动态上下文

TL;DR提出了一种名为 VisualComet 的框架,用于预测图片中可能发生的事件、人物意图和接下来可能发生的事件,并建立了一个包含超过 1.4 百万个文本描述和各种图像的广泛集合。此外,研究者在图片和文本之间建立了紧密的链接,以确保在视觉和文本上的共同推理取得了强劲的基础表现,证明了集成是关键。