Jun, 2023

意大利厨师能教印度机械师什么?情境和地点通用的动作识别

TL;DR本篇论文提出了一种行动识别的泛化问题,使用介绍了包含大型 Ego4D 数据集中的 1.1M 视频剪辑的 ARGO1M 数据集,对 10 个场景和 13 个位置进行分类。作者提出了一种名为 CIR 的方法,通过复制其他领域的视频的重建,并利用文本叙述来指导域可推广表示的学习,结果表明 CIR 在 ARGO1M 的所有测试中均优于先前的域泛化方法。