MMJun, 2021
使用人类动作构建视频语言数据集进行多模态逻辑推理
Building a Video-and-Language Dataset with Human Actions for Multimodal Logical Inference
Riko Suzuki, Hitomi Yanaka, Koji Mineshima, Daisuke Bekki
TL;DR介绍了一个新的包含人类行为的视频和语言数据集,该数据集专注于描述动态人类动作的故事意图和局限性表达式,该数据集预计对评估包括否定和量化在内的复杂语句与视频之间的多模态推理系统非常有用。