BriefGPT.xyz
Ask
alpha
关键词
video referring expression comprehension
搜索结果 - 2
MM
视频参照表达理解中的基于内容条件查询的 Transformer
使用动态查询和跨模态对齐,基于 Transformer 方法的 ConFormer 模型在视频参考表达理解中表现出色,实现了对目标对象的定位。
PDF
8 months ago
MM
视频指称理解中的对话问题
研究视频指代表达理解中的两个问题,提出了一种新颖的双重对应网络方法来增强帧间和跨模态的密集关联,以提高视频和图像 REC 基准测试的表现,并进行了全面的剖析研究。
PDF
2 years ago
Prev
Next