Aug, 2024

MROVSeg:突破视觉语言模型在开放词汇语义分割中的分辨率诅咒

TL;DR该研究解决了开放词汇语义分割中低分辨率特征导致的细节缺失问题。提出了一种名为MROVSeg的多分辨率训练框架,利用滑动窗口技术对高分辨率输入进行处理,并通过多粒度遮蔽注意机制实现精确分割。实验证明,该方法在高分辨率输入下的表现优于现有方法,为开放词汇语义分割设立了新标准。