Jul, 2024

参考原子视频动作识别

TL;DR引入一个名为RAVAR的新任务,该任务旨在根据个别人的文本描述和视频数据识别其原子动作,介绍了RefAVA数据集和RefAtomNet方法作为强大的初步基准。