ICLRJan, 2024

长时嘈杂视频的多粒度对应关系学习

TL;DR该研究通过提出 NOise Robust Temporal Optimal traNsport (Norton) 框架,解决了视频和语言之间的 MNC 问题,通过音频固定运输(OT)框架捕捉长期依赖关系,并通过过滤无关片段和标题来对齐异步片段 - 标题对,以确保准确的时间模型。