BriefGPT.xyz
Ask
alpha
关键词
discriminative visual-textual representations
搜索结果 - 1
统一的视频 - 语言联合预训练与同步音频
我们提出了一种增强的视频语言预训练框架,使用同步音频,可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下,取得了相对于现有基准的改进结果,并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的
→
PDF
2 months ago
Prev
Next