Aug, 2022

分层本地-全局变压器用于时间句子定位

TL;DR本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题,并将其应用于 temporal sentence grounding 任务,通过跨模态平行变压器解码器将其编码为最终的基础。