Apr, 2020

跨模态一致性下的视听实例鉴别

TL;DR文中介绍了一种自监督学习方法,通过交叉模态辨别视频和音频来学习视听表征,其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别,可以学习到来自视频和音频的良好表征,并可于行动识别任务中获得高竞争性能。同时,文中提到该方法采用交叉模态协同度量相似性,构造更好的正负样本集合,从而实现了对可视相似度的校准。