Mar, 2025

视频动作差异化

TL;DR本文提出了视频动作差异化(VidDiff)这一新任务,旨在识别同一动作视频之间的细微差别,填补了该研究领域的空白。通过构建包含549对视频的VidDiffBench基准数据集,本文展示了对先进的多模态模型的挑战,并提出了一种三阶段的方法来解决局部化和细粒度比较的问题,推动了对此领域的进一步研究。