May, 2024

区域引导的时间句子定位的查询多样化转换器

TL;DR在本文中,我们提出了一种基于区域导向的 Transformer(RGTR)用于时间句子锚定,通过对时刻查询进行多样化处理以消除重叠和冗余预测,并使用锚对作为时刻查询引入显式的区域导向,从而降低了优化困难并确保了最终预测结果的多样性,同时设计了一个 IoU 感知评分头来提高建议质量。在 QVHighlights、Charades-STA 和 TACoS 数据集上的广泛实验证明了 RGTR 的有效性,优于最先进的方法。