Jul, 2023

简洁的时间视频定位:多尺度邻近注意力与放大边界检测

TL;DR提供了一个无花样的 TVG 模型,借助多尺度邻近注意和缩放边界检测两个核心模块,提高了在具有低语义噪声比的情况下提取最能区分信息的能力。结合端到端训练策略,该模型在不同的 TVG 基准上实现了竞争性的性能,同时具有更快的推理速度和较轻量的模型参数。