利用力学动力学和事件逻辑将动词的词汇语义接地于视觉感知中
本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论,介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。
Jun, 2011
本文提出了一种方法来处理跨模态输入的原始流,以产生物体的细分并与高级概念相关联,以学习用户的颜色和形状的概念,并表明该模型可以从少量的物理演示中推广到识别新单词的物理指示。
Jun, 2017
本文提出了一个基于人类重心的空间和运动表示的低层次视觉处理与高层次人类中心的空间和运动表示相结合的方法来解决物体交互和室内运动等问题。
Sep, 2017
介绍了一种新的视频数据集CLEVRER,以组合描述、解释、预测和假设性问题的方式评估计算模型,结果表明现有的视觉推理模型在因果推理任务(解释性、预测性和假设性)方面表现不佳,需要在模型中融合语言输入和因果关系的理解。
Oct, 2019
本文提出了一种统一框架-动态概念学习者(DCL)用于从视频及自然语言文本中,对物理对象和事件进行建模,其中DCL采用轨迹提取器来追踪每个物体随时间的变化并将其表示为一种潜在目标中心的特征向量,并进一步将物体集成到图形网络中学习物体之间的动态交互关系,最终通过语义分析器解析问题并执行执行器来回答问题,该方法在CLEVRER数据集上实现了state-of-the-art的表现。
Mar, 2021
本文测试了 2D 图像和 3D 轨迹编码器在学习动词概念时的效果,发现 2D 图像在语言表示学习方面和 3D 轨迹表现相似,挑战了通常认为更丰富的环境表示一定能够更好地进行语言表示学习的传统智慧。
Mar, 2023
采用跨模态概念化的角度,本文提出了一种名为ExACT的新方法,从事件感知的角度来解决基于事件的动作识别问题。通过自适应细粒度事件表示筛选出重复事件,并利用概念推理和不确定性估计模块来增强语义表征,实验结果表明,ExACT在不同数据集上均取得了优异的识别准确率。
Mar, 2024
通过调查105个需要事件理解能力的视频数据集,我们考虑它们对视频中鲁棒事件理解研究的贡献,并评估在这一研究领域中提出的视频事件提取任务,提出了基于调查结果的数据集策划和任务构建建议,特别强调视频事件的时间特性和视觉内容的歧义性。
Jun, 2024
通过自然语言将运动特征量化为可解释的方式,并测量其在隐藏状态中的嵌入程度,从而使我们能够控制基于Transformer的运动预测模型的文本输入,为与这些模型进行交互和理解提供独特的界面。
Jun, 2024