关键词vision and language pre-training
搜索结果 - 3
- 自监督替换用于细粒度视觉语言预训练
本文提出了一种无需对象注释的细粒度自我监督信号,其基于同义词句子改写(HSR)算法提供令牌级别的监督,并使用置换视觉语言建模(RVLM)框架,分别提供被替换语言对比(RLC)和被替换语言模型(RLM)两种方法来学习细粒度对齐,通过多项下游任 - EMNLP从文本角度探究跨模态语义对齐能力
本文提出了一种基于图像字幕生成的新型探测方法,用于研究视觉语言预训练模型中跨模态语义对齐的内部机制,发现 VLP 模型对齐的主要是对象和视觉词,忽略了全局语义,还存在固定的句子模式,无视语法和流畅性等问题。
- AAAI通过多模态知识迁移的开放词汇多标签分类
本研究提出一种新的基于开放词汇的跨模态知识迁移框架 (MKT),利用视觉和语言预训练模型的多模态知识,采用知识蒸馏技术和双流模块来实现多标签分类和多目标识别,并在公开基准数据集上显著优于现有方法。