Sep, 2023

Vote2Cap-DETR++:解耦定位与描述的端到端三维稠密字幕

TL;DR通过并行解码,Vote2Cap-DETR提出了一种将对象定位和描述生成解耦的简单而有效的变压器框架,以及引入了迭代空间精细化策略和额外的空间信息来提高定位性能和准确描述,实验证明其优于常规的“检测然后描述”的方法。