CVPRMar, 2020

Speech2Action:跨模态监督下的行为识别

TL;DR本研究使用 BERT 基于对电影剧本的分析,研究了语音的文字转录以及行动之间的关联,训练了一个 Speech2Action 分类器,并在 188M 个片段的不带标签的电影语音数据上应用了该模型,获得了超过 800K 个视频片段的弱标签,最终通过使用这些标签标记的数据进行训练,在不使用单个手动标记行动示例的情况下,在标准动作识别基准测试上展现出卓越的行动识别表现。