BriefGPT.xyz
大模型
Ask
alpha
关键词
datacomp
搜索结果 - 2
多模态对比学习的 CLIPLoss 和基于范数的数据选择方法
数据选择是大规模视觉 - 语言模型预训练(例如 CLIP)中的一个核心问题,本文提出了两种新方法:一种是利用 negCLIPLoss 作为质量测量的 CLIP 损失启发式方法,另一种是使用 NormSim 度量预训练数据和目标数据之间的相似
→
PDF
a month ago
细节决定成败:深入探究数据过滤的兔子洞
本论文介绍了在参加 DataComp 挑战时的学习和解决方案,通过三个阶段的筛选策略与已有方法整合以及提出新的解决方案,如使用水平翻转图像计算 CLIP 分数以减轻场景文字的干扰、利用视觉和语言模型检索目标下游任务的训练样本,重新平衡数据分
→
PDF
9 months ago
Prev
Next