Aug, 2024

释放GPT的时空推理能力以实现无训练的音频和语言参考视频物体分割

TL;DR本研究解决了音频和语言参考视频物体分割(AVS和RVOS)中的无训练范式问题。我们提出了一种新颖的GPT辅助枢轴选择模块,通过时空推理选择关键帧和关键框,从而为物体分割提供高质量的初始提示。此外,我们的AL-Ref-SAM 2管道在多项测试中表现优于或媲美于全监督微调方法,展示了其潜在的影响力。