使用人类动作构建视频语言数据集进行多模态逻辑推理

MMJun, 2021

Building a Video-and-Language Dataset with Human Actions for Multimodal Logical Inference

Riko Suzuki, Hitomi Yanaka, Koji Mineshima, Daisuke Bekki

TL;DR介绍了一个新的包含人类行为的视频和语言数据集，该数据集专注于描述动态人类动作的故事意图和局限性表达式，该数据集预计对评估包括否定和量化在内的复杂语句与视频之间的多模态推理系统非常有用。

Abstract

This paper introduces a new video-and-language dataset with human actions for multimodal logical inference, which focuses on intentional a

发现论文，激发创造

介绍了 DeepMind Kinetics 人类动作视频数据集，包含 400 个动作类别的视频片段，视频时长为 10 秒，并描述该数据集的统计信息、收集方式，以及神经网络在分类和偏差分析方面的性能指标和结果。

May, 2017

该论文介绍了 AVA-Kinetics 本地化人类行为视频数据集，其中包含超过 230k 个帧，对每个人的关键帧进行了 80 个 AVA 动作类的注释，通过视频行动变换网络在 AVA-Kinetics 数据集上进行了基线评估，并证明了在 AVA 测试集上行动分类的表现有所改善。

May, 2020

介绍了 LEMA 数据集，通过密集注释原子动作和人 - 物互动，为日常活动的组成性，调度性和分配性提供了地面真实性，进一步设计了具有基线模型的具有挑战性的组成动作识别和动作 / 任务预测基准，旨在推动机器视觉社区研究真实世界中的人类目标导向活动和任务调度和分配。

Jul, 2020

本研究提出了 KIT 运动 - 语言数据集，该数据集包括来自多个动作捕捉数据库的数据，并使用统一的表示法聚合，以获得自然语言的动作注释，通过困惑度选择和众包方法进行注释。该数据集包含 3911 个运动，6278 个自然语言注释，使人类运动和自然语言之间的语义表示研究变得更加透明和可比较。

Jul, 2016

描述了 DeepMind Kinetics 人类动作数据集的 2020 版本，扩展并更新了 Kinetics-700 数据集，其中包含来自不同 YouTube 视频的至少 700 个视频剪辑，以及介绍了更新的数据集所做的变化和使用 I3D 网络的基线结果的详细统计。

Oct, 2020

本文介绍了 DeepMind Kinetics 人类行为数据集从 600 类扩展到 700 类的详细更改，并使用 I3D 神经网络架构提供了基线结果和全面的统计数据。

Jul, 2019

本文介绍了一个新的任务 —— 视频与语言推理，用于联合多模态理解视频和文本，提出了一个名为 “Violin” 的大规模数据集并对其进行了分析，并对该任务进行了广泛评估。

Mar, 2020

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

这篇论文分析了当前视频中人类活动理解的研究现状和未来方向，探讨了数据集，评估指标，算法和未来发展方向，并提出需要掌握的信息以实现活动理解的重大进展。

Aug, 2017

Moments in Time 数据集是一个包含 100 万短视频的大型人工注释集合，主要用于研究动态事件的空间 - 音频 - 时间动态建模，包括 339 个类别的活动标注，可作为发展至人类日常处理的复杂性和抽象推理水平的模型的新挑战。

Jan, 2018