BriefGPT.xyz
大模型
Ask
alpha
关键词
high-quality captions
搜索结果 - 3
CVPR
Panda-70M:使用多个跨模态教师为 70M 视频加上字幕
通过多模态输入构建高质量视频数据集,使用检索模型选择最佳字幕注释,名为 Panda-70M,训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。
PDF
4 months ago
数百万视频上的视觉语言模型蒸馏
本研究利用合成的教学数据对图像语言基准进行微调,生成高质量的视频标题,构建适应视频和语言的模型,并在多个视频 - 语言基准上取得了显著结果。
PDF
6 months ago
ShareGPT4V:改进大型多模态模型的更好标题
在大型多模态模型领域,高效的模态对齐对于提升模型性能至关重要,但由于高质量图文数据的稀缺性而受限。为了解决这一瓶颈,我们介绍了 ShareGPT4V 数据集,这是一个包含 120 万条高度描述性的标题的创新大规模资源,其在多样性和信息内容上
→
PDF
7 months ago
Prev
Next