BriefGPT.xyz
Ask
alpha
关键词
clip score
搜索结果 - 3
幻觉减轻促进长期视频理解
本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用 CLIP 分数指导带有问题的帧采样过程,并将问题信息注入到图像 Q-former 的查询中以获取更重要的视觉特征,最终在 MovieChat 数据集上取得了 84.2%和
→
PDF
19 days ago
探究基于文本引导的遥感图像单幅编辑
本文提出了一种基于扩散方法的稳定可控的远程感知图像编辑方法,避免了大量配对图像的使用,并且通过量化评估系统和主观评估指标表明,该方法在远程感知图像编辑方面的效果优于现有的图像编辑模型。
PDF
2 months ago
细节决定成败:深入探究数据过滤的兔子洞
本论文介绍了在参加 DataComp 挑战时的学习和解决方案,通过三个阶段的筛选策略与已有方法整合以及提出新的解决方案,如使用水平翻转图像计算 CLIP 分数以减轻场景文字的干扰、利用视觉和语言模型检索目标下游任务的训练样本,重新平衡数据分
→
PDF
9 months ago
Prev
Next