Apr, 2023

无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习

TL;DR本文介绍了利用图像字幕预训练高质量视频模型的方法,并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效,使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能,并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。