BriefGPT.xyz
Ask
alpha
关键词
video-text datasets
搜索结果 - 2
通过生成式标题和多词概念库改进用于即席视频搜索的可解释嵌入
通过构建新数据集和发展多词概念库,本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈,实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍,并将在 2016-2023 年(八年)TRECVid AV
→
PDF
3 months ago
无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习
本文介绍了利用图像字幕预训练高质量视频模型的方法,并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效,使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能,并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。
PDF
a year ago
Prev
Next