BriefGPT.xyz
Ask
alpha
关键词
multi-stage decoder
搜索结果 - 1
CVPR
通过视觉语言验证和迭代推理来改善视觉定位
本研究提出了一种基于 transformer 的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
PDF
2 years ago
Prev
Next