利用力学动力学和事件逻辑将动词的词汇语义接地于视觉感知中

Jun, 2011

利用力学动力学和事件逻辑将动词的词汇语义接地于视觉感知中

Grounding the Lexical Semantics of Verbs in Visual Perception using Force Dynamics and Event Logic

J. M. Siskind

TL;DR本文提出了一个实现的系统，用于识别简单空间-动态动词描述的事件在短的图像序列中发生。使用力学和事件逻辑来指定事件的词汇语义，使得该系统比起基于运动轮廓的先前系统更加强健。

Abstract

This paper presents an implemented system for recognizing the occurrence of events described by simple spatial-motion verbs in short image sequences. The semantics of these verbs is specified with event-logic expression

发现论文，激发创造

视觉场景的基于语义 grounded 语义构成

本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论，介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。

Jun, 2011

从动词描述中生成运动事件的模拟

本研究使用计算建模的方法将自然语言中的运动事件转化为三维的时间模拟，以统计和检测不同的键值与其相应的物理运动表现是否始终一致。

Oct, 2016

多模态指令中的符号基础

本文提出了一种方法来处理跨模态输入的原始流，以产生物体的细分并与高级概念相关联，以学习用户的颜色和形状的概念，并表明该模型可以从少量的物理演示中推广到识别新单词的物理指示。

Jun, 2017

认知机器人的常识场景语义：走向基于视觉-运动相互作用的根源

本文提出了一个基于人类重心的空间和运动表示的低层次视觉处理与高层次人类中心的空间和运动表示相结合的方法来解决物体交互和室内运动等问题。

Sep, 2017

CLEVRER：用于视频表示和推理的碰撞事件

介绍了一种新的视频数据集CLEVRER，以组合描述、解释、预测和假设性问题的方式评估计算模型，结果表明现有的视觉推理模型在因果推理任务（解释性、预测性和假设性）方面表现不佳，需要在模型中融合语言输入和因果关系的理解。

Oct, 2019

通过动态视觉推理理解对象和事件的物理概念

本文提出了一种统一框架-动态概念学习者（DCL）用于从视频及自然语言文本中，对物理对象和事件进行建模，其中DCL采用轨迹提取器来追踪每个物体随时间的变化并将其表示为一种潜在目标中心的特征向量，并进一步将物体集成到图形网络中学习物体之间的动态交互关系，最终通过语义分析器解析问题并执行执行器来回答问题，该方法在CLEVRER数据集上实现了state-of-the-art的表现。

Mar, 2021

比较轨迹和视觉模态的动词表示方法

本文测试了 2D 图像和 3D 轨迹编码器在学习动词概念时的效果，发现 2D 图像在语言表示学习方面和 3D 轨迹表现相似，挑战了通常认为更丰富的环境表示一定能够更好地进行语言表示学习的传统智慧。

Mar, 2023

ExACT：基于语言引导的概念推理和不确定性估计，用于基于事件的动作识别及更多

采用跨模态概念化的角度，本文提出了一种名为ExACT的新方法，从事件感知的角度来解决基于事件的动作识别问题。通过自适应细粒度事件表示筛选出重复事件，并利用概念推理和不确定性估计模块来增强语义表征，实验结果表明，ExACT在不同数据集上均取得了优异的识别准确率。

Mar, 2024

基于事件理解的视频数据集综述

通过调查105个需要事件理解能力的视频数据集，我们考虑它们对视频中鲁棒事件理解研究的贡献，并评估在这一研究领域中提出的视频事件提取任务，提出了基于调查结果的数据集策划和任务构建建议，特别强调视频事件的时间特性和视觉内容的歧义性。

Jun, 2024

动态词：运动预测的表征工程

通过自然语言将运动特征量化为可解释的方式，并测量其在隐藏状态中的嵌入程度，从而使我们能够控制基于Transformer的运动预测模型的文本输入，为与这些模型进行交互和理解提供独特的界面。

Jun, 2024