Jan, 2024

通过通用概念发现理解视频变形器

TL;DR本研究探讨了基于视频的 Transformer 表征的概念可解释性问题,通过自动发现高级时空概念,系统性地解决了视频模型中动态概念的识别挑战,并提出了 Video Transformer Concept Discovery (VTCD) 算法,从而揭示了不受限视频模型中的时空推理机制和以物体为中心的表示,进而证明 VTCD 可以用于提升精细化任务的模型性能。