MMOct, 2023

视频参照表达理解中的基于内容条件查询的 Transformer

TL;DR使用动态查询和跨模态对齐,基于 Transformer 方法的 ConFormer 模型在视频参考表达理解中表现出色,实现了对目标对象的定位。