Jan, 2024

ActionHub:大规模动作视频描述数据集用于零样本动作识别

TL;DR利用视频标题进行丰富的跨模态和跨行动建模,提出了 CoCo 框架,包括双重跨模态对齐模块和跨行动不变性挖掘模块,并通过动作描述数据集 ActionHub 在零样本行动识别 (ZSAR) 的三个热门基准测试中实现了明显的效果优于。我们的 CoCo 框架。