Nov, 2021

从时间维度出发:多模态自我中心动作识别

TL;DR利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。