BriefGPT.xyz
大模型
Ask
alpha
关键词
pre-training vision-language models
搜索结果 - 2
视频编辑对视频检索的应用
通过使用单个时间戳作为廉价的注释来源,本研究提出了一种视频文本检索方法,其中初始视频片段边界从时间戳启动,并通过视频片段编辑方法进行改进,以提高检索性能。实验结果表明,通过编辑视频片段可以持续改善检索性能。
PDF
5 months ago
从稀缺到高效:通过视觉丰富的标题改进 CLIP 训练
本研究关注于通过改善数据质量和数据多样性,特别强调了视觉概念与标题的整合,提出了一种用于 web 爬取数据集训练的新方法 VeCLIP,通过综合评估数据效率和模型性能,证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优
→
PDF
9 months ago
Prev
Next