MMOct, 2023
视频参照表达理解中的基于内容条件查询的 Transformer
Video Referring Expression Comprehension via Transformer with Content-conditioned Query
Ji Jiang, Meng Cao, Tengtao Song, Long Chen, Yi Wang...
TL;DR使用动态查询和跨模态对齐,基于 Transformer 方法的 ConFormer 模型在视频参考表达理解中表现出色,实现了对目标对象的定位。