Mar, 2024

基于多粒度跨模态对齐的开放词汇语义分割学习

TL;DR提出了一种多粒度跨模态对齐 (MGCA) 框架,通过在像素级、对象级和区域级学习对齐来解决现有方法在像素级预测和训练时的粒度差异问题,并采用硬采样策略促进精细的跨模态对比学习,进一步开发自适应语义单元来改善像素预测单元在下游分割中的缺陷。在 CC3M 数据集上进行训练后,该方法在性能上显著超过了现有的方法,验证了其有效性和高效性。