通过时空事件图解释视觉与语言

ICCVAug, 2023

Explaining Vision and Language through Graphs of Events in Space and Time

Mihai Masala, Nicolae Cudlenco, Traian Rebedea, Marius Leordeanu

TL;DR人工智能在填补视觉与语言之间的差距方面取得了重大进展，但我们仍然远未从语言的角度理解、解释和显式地控制视觉内容，因为两个领域之间仍然缺乏一个共同的可解释表示。在本研究中，我们针对这个限制提出了 “时空事件图（GEST）”，通过它我们可以表示、创建和解释视觉和语言故事。我们提供了我们模型的理论证明和实验验证，证明 GEST 能为强大的深度学习模型带来有实质性的补充价值。特别是，GEST 可以在内容层面上提高从文本生成视频的能力，通过轻松地融入我们的创新视频生成引擎。此外，通过使用高效的图匹配技术，GEST 图还可以改进语义层面上的文本比较。

Abstract

artificial intelligence makes great advances today and starts to bridge the gap between vision and language. However, we are still far from understanding, explaining and controlling explicitly the visual content

artificial intelligence vision and language graph of events in space and time linguistic stories video generation

发现论文，激发创造

视觉和语言之间的事件时空图作为共同表征的 GEST

本论文研究了人类能够无缝地建立世界内部表征能力，并通过一种明确的视觉和语言表征 - 时空事件图（GEST）来理解和仿效此能力。使用 GEST，我们可以通过图形匹配以语义和完全可解释的方式衡量文本和视频之间的相似性，并从提供良好理解的内容的共同表示中生成文本和视频。在本文中，我们表明，基于 GEST 的图形匹配相似度度量优于经典文本生成度量，并且还可以提高经过深度训练的度量的性能。

May, 2023

基于视觉符号图的视频理解表示学习

本文提出了一种基于两个图的模型，其中节点对应于演员和物体，边编码不同类型的交互，通过图神经网络在结果混合图上优化演员、物体及其交互的表示，该方法在 Charades 数据集上实现了最先进的效果，用于解决有关视频理解的挑战性任务，如时间动作定位。

May, 2019

多模态事件图：走向多模态世界的事件中心理解

本研究提出了多模态事件关系的新任务，并开发了一个大规模数据集和一种基于外部知识库的弱监督多模态方法，为人工智能系统实现媒体理解和跨媒体事件关系建立提供了支持。

Jun, 2022

利用生成模型进行语义轨迹分析的时空叙事

该研究考虑使用生成语言模型分析语义轨迹痕迹并生成合成语义轨迹数据，从而实现在人类、动物、物品等运动轨迹方面进行未来走向预测，增强机器对行动的理解，从而进一步提高人机交互能力，并增强城市规划、个性化推荐引擎和商业战略等领域的应用。

Jun, 2023

现实与语言数据的限制

这篇研究使用一个新颖的推理测试来探索语言数据对于计算机理解物理世界的可行性，并强调模型可能直接从纯语言数据中学习的内容。

Aug, 2022

将常识世界模型注入图谱知识

本文研究在一个开放式世界的文本冒险游戏中生成叙事的设定，使用游戏状态的图形表示来训练模型，可以消耗和输出基于图形的表示和自然语言描述和动作。通过结合众包和模拟游戏玩法构建一组大量的任务和复杂的动作数据集来构建这样的模型，发现通过在图形上下文和目标上训练可以改善动作叙述模型的一致性，即使在测试时没有图形。这在自动指标和人类评估中都得到了证明。我们计划公开代码、新一组任务和最佳表现模型。

Jan, 2023

使用虚拟空间合成日常活动的事件中心知识图谱

提出 VirtualHome2KG 框架，在虚拟空间中生成日常生活活动的合成知识图，以分析上下文感知数据并发展传统上由于相关数据和语义信息不足而难以开发的各种应用。

Jul, 2023

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

视频作为时空区域图

本文提出了利用时空区域图来捕捉人类行为识别的两个重要线索、以及通过图卷积网络来推理这种表示方法的模型，取得了 Charades and Something-Something 数据集上的最优结果

Jun, 2018

建模语义变化生成时间线

本研究同时使用静态和时变词嵌入来衡量事件对词汇的影响，通过创建历史转折点的时间轴来了解目标词的演化，定量评估结果表明这种技术可以捕捉语义变化和事件影响。

Sep, 2019