ECCVApr, 2020
VisualCOMET:推理静态图像的动态上下文
VisualCOMET: Reasoning about the Dynamic Context of a Still Image
Jae Sung Park, Chandra Bhagavatula, Roozbeh Mottaghi, Ali Farhadi, Yejin Choi
TL;DR提出了一种名为 VisualComet 的框架,用于预测图片中可能发生的事件、人物意图和接下来可能发生的事件,并建立了一个包含超过 1.4 百万个文本描述和各种图像的广泛集合。此外,研究者在图片和文本之间建立了紧密的链接,以确保在视觉和文本上的共同推理取得了强劲的基础表现,证明了集成是关键。