Aug, 2024

解锁外向视频-语言数据用于自我中心视频表示学习

TL;DR本研究旨在解决自我中心视频学习中外向视频-语言数据应用的挑战,通过采用数据转化框架,将外向数据适应于自我中心训练,聚焦于手-物体互动的视频片段以及叙述风格的转化。通过广泛的评估,展示了EMBED方法在多个自我中心下游任务中的优越性,尤其是在零样本设置中在多个基准测试上的达到最新水平的成果。