视觉和语言之间的事件时空图作为共同表征的 GEST

May, 2023

视觉和语言之间的事件时空图作为共同表征的 GEST

GEST: the Graph of Events in Space and Time as a Common Representation between Vision and Language

Mihai Masala, Nicolae Cudlenco, Traian Rebedea, Marius Leordeanu

TL;DR本论文研究了人类能够无缝地建立世界内部表征能力，并通过一种明确的视觉和语言表征 - 时空事件图（GEST）来理解和仿效此能力。使用 GEST，我们可以通过图形匹配以语义和完全可解释的方式衡量文本和视频之间的相似性，并从提供良好理解的内容的共同表示中生成文本和视频。在本文中，我们表明，基于 GEST 的图形匹配相似度度量优于经典文本生成度量，并且还可以提高经过深度训练的度量的性能。

Abstract

One of the essential human skills is the ability to seamlessly build an inner representation of the world. By exploiting this representation, humans are capable of easily finding consensus between visual, auditory and linguistic perspectives. In this work, we set out to understand and emulate this ability through an explicit representation for both vision an

inner representation graphs of events in space and time text and video matching text and video generation graph matching

发现论文，激发创造

通过时空事件图解释视觉与语言

人工智能在填补视觉与语言之间的差距方面取得了重大进展，但我们仍然远未从语言的角度理解、解释和显式地控制视觉内容，因为两个领域之间仍然缺乏一个共同的可解释表示。在本研究中，我们针对这个限制提出了 “时空事件图（GEST）”，通过它我们可以表示、创建和解释视觉和语言故事。我们提供了我们模型的理论证明和实验验证，证明 GEST 能为强大的深度学习模型带来有实质性的补充价值。特别是，GEST 可以在内容层面上提高从文本生成视频的能力，通过轻松地融入我们的创新视频生成引擎。此外，通过使用高效的图匹配技术，GEST 图还可以改进语义层面上的文本比较。

Aug, 2023

时间图：基于图的时间推理

提出了一种名为 TimeGraphs 的新方法，将动态交互以分层的时间图形式建模，通过自监督方法构建多层次事件层次结构，有效地进行非均匀分布的动态推理。在多个数据集上评估 TimeGraphs 的性能，包括足球模拟器、Resistance 游戏和 MOMA 人体活动数据集，结果表明 TimeGraphs 在各种时间推理任务上都具有鲁棒性和效率，相比当前方法，在事件预测和识别任务上性能提升高达 12.2％。实验进一步证明了 TimeGraphs 的零样本泛化能力、对稀疏数据鲁棒性以及适应流数据的能力。

Jan, 2024

视频作为时空区域图

本文提出了利用时空区域图来捕捉人类行为识别的两个重要线索、以及通过图卷积网络来推理这种表示方法的模型，取得了 Charades and Something-Something 数据集上的最优结果

Jun, 2018

EventKG：一个多语言的以事件为中心的时序知识图谱

本篇研究介绍了一个多语言的以事件为中心的知识图谱 EventKG，其中包括超过 690,000 个当代和历史事件以及超过 2.3 百万的时间关系，该知识图谱填补了现有知识库在事件和时间关系上的不足。

Apr, 2018

基于视觉符号图的视频理解表示学习

本文提出了一种基于两个图的模型，其中节点对应于演员和物体，边编码不同类型的交互，通过图神经网络在结果混合图上优化演员、物体及其交互的表示，该方法在 Charades 数据集上实现了最先进的效果，用于解决有关视频理解的挑战性任务，如时间动作定位。

May, 2019

利用生成模型进行语义轨迹分析的时空叙事

该研究考虑使用生成语言模型分析语义轨迹痕迹并生成合成语义轨迹数据，从而实现在人类、动物、物品等运动轨迹方面进行未来走向预测，增强机器对行动的理解，从而进一步提高人机交互能力，并增强城市规划、个性化推荐引擎和商业战略等领域的应用。

Jun, 2023

GEB+: 通用事件边界字幕、关联和检索基准

本文介绍了一个新的数据集 Kinetic-GEB+，该数据集有助于通过状态更改促进视频的细粒度、鲁棒性和类人理解，还设计了新的 TPD 建模方法，可使视觉差异的表示和精确定位状态更改得到显著的性能改进。

Apr, 2022

时空事件图像用于动态场景理解

该论文介绍了关于动态场景理解的研究，主要涉及自动驾驶、道路事件检测、视频活动检测、持续学习等内容。

Dec, 2023

在基于图像场景环境的语义空间中融合视觉语义到句子表示中

本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中，以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题，作者还提出了两个新的目标，来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。

Feb, 2020

建模语义变化生成时间线

本研究同时使用静态和时变词嵌入来衡量事件对词汇的影响，通过创建历史转折点的时间轴来了解目标词的演化，定量评估结果表明这种技术可以捕捉语义变化和事件影响。

Sep, 2019