BriefGPT.xyz
Ask
alpha
关键词
weakly-supervised datasets
搜索结果 - 1
无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习
本文介绍了利用图像字幕预训练高质量视频模型的方法,并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效,使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能,并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。
PDF
a year ago
Prev
Next