Jun, 2020
自监督多模态通用网络
Self-Supervised MultiModal Versatile Networks
Jean-Baptiste Alayrac, Adrià Recasens, Rosalia Schneider, Relja Arandjelović, Jason Ramapuram...
TL;DR本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试中获得最先进的性能。