Aug, 2020

RareAct:一个非常规交互视频数据集

TL;DR本文介绍了一项手动注释的视频数据集 RareAct,该数据集包含了不同的不寻常的动作,如 “混合手机”、“切割键盘” 和 “微波鞋”,旨在评估行为识别模型的零射击和少射击组合性。该数据集包含 122 种不同的动作,这些动作由 HowTo100M 中很少共同出现,但经常分别出现的动词和名词组成。我们使用最先进的 HowTo100M 预训练视频和文本模型提供基准测试,并表明零射击和少射击组合性仍然是一个具有挑战性且未解决的任务。