关键词fine-grained feature alignment
搜索结果 - 3
- 跨模态掩码自蒸馏用于指代图像分割的 CM-MaskSD
本文提出了一种名为 CM-MaskSD 的跨模态掩膜自学习框架,利用被称为 CLIP 模型的知识实现了精细的图像 - 文本对齐,并引入少量参数协调多模态特征,使其在三个基准数据集上优于现有方法,实现了对指定图像中物体的分割。
- 联合学习问答器和密集字幕生成器强化视觉语言预训练
本文提出一种名为 Joint QA and DC Generation (JADE) 的新方法,利用预训练的多模态模型及易于爬取的图像 - 文本对生成和过滤大规模的视觉问答和密集字幕数据集。我们将该方法应用于概念字幕(CC3M)数据集,生成 - AAAI利用本地特征模式进行无监督领域自适应
本文介绍了一种方法,它通过学习领域不变的局部特征模式并联合对齐整体和局部特征统计量,从而进一步实现细粒度特征对齐,并在两个流行的基准数据集上将其与现有的无监督领域适应方法进行比较,证明了我们方法的优越性和对减轻负迁移的有效性。