关键词vision-and-language pretraining
搜索结果 - 6
- 多模态预训练中视觉关系的弱监督学习
本文研究了使用小规模可视关系数据的预训练方法,包括使用场景图将可视关系三元组转换为结构化说明,以及使用掩模关系预测进一步鼓励从可视上下文中关联实体,并且证明了这些方法从弱监督关系数据中学习多模态表示的有效性。
- 定位与语义:语言如何促进视觉表征学习?
我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征,在广泛的任务范畴内评估学习表征的质量,发现视觉 - 语言模型更适合标签预测任务,而仅视觉模型更适合需要更多局部信息的密集预测任务,同时指出语言有利于视觉模型更好地学习语义,但 - EMNLP机器翻译文本的多语言多模态学习
研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效,并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。
- 图文检索的动态对比蒸馏
本研究提出了一种名为 DCD 的新型动态对比蒸馏框架,用于压缩大型 VLP 模型以改善跨模态图像文本检索(ITR)的效率和部署,其中涉及多模态对比学习、动态蒸馏等技术,实验证明在 MS-COCO 和 Flickr30K 基准上,将 DCD - KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练
本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架,其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率,并在广泛的视觉和语言任务上取得了竞争性的表现。
- ROSITA: 通过跨模态和内部模态知识整合提升视觉语言语义对齐
ROSITA 是一种新的 VLP 方法,其通过将跨模态和内在知识整合到一个统一的场景图中来增强语义对齐,具体地,它引入了一种结构知识掩蔽策略来使用场景图结构作为支持性先验知识来执行掩蔽语言(区域)建模,从而通过消除在跨模态和内部信息中的干扰