Apr, 2024

通过基于提示的定位在统一框架中重新思考三维密集字幕和视觉对齐

TL;DR3DGCTR 是一个统一的框架,通过重新考虑 3DVG 模型的基于提示的定位能力,将轻量级字幕头集成到现有的 3DVG 网络中,通过提取提示中的定位信息,有效地提升了 3DDC 的能力,实现了同时进行多任务训练,互相增强性能。