MMNov, 2022

CLOP:基于视频和语言的预训练模型,带有知识规范化

TL;DR本文提出了一种基于知识正则化的跨模态预训练方法 (CLOP),利用结构性知识如对象感知和知识引导的采样进行多模态关联的去除,实现了泛化表示的显著提升。