BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal versatile network
搜索结果 - 1
自监督多模态通用网络
本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试
→
PDF
4 years ago
Prev
Next