BriefGPT.xyz
大模型
Ask
alpha
关键词
caption quality
搜索结果 - 5
CVPR
FFF: 修正有缺陷的基础对比预训练会得到非常强大的视觉 - 语言模型
本文研究视觉语言对比预训练中的问题,提出了解决负样本分配不正确和字幕质量低和多样性不足的有效方法,并通过使用 sigmoid loss 进行训练,在图像识别和图像检索方面取得了非常大的增益。
PDF
2 months ago
CLIP 与优质字幕:强大的视觉任务预训练
简要概述:通过改进图像 - 文本数据集中标题的质量,有助于改善 CLIP 模型的视觉表示质量,并在密集预测视觉任务中取得显著的性能提升。
PDF
2 months ago
EMNLP
CLAIR: 使用大型语言模型评估图像标题
CLAIR 是一种新颖方法,利用大型语言模型(LLMs)的零 - shot 语言建模能力来评估候选图像标题,与现有方法相比,CLAIR 在与人类判断相符的标题质量方面表现出更强的相关性,能够清晰解读结果与其分配的分数背后的推理过程。
PDF
8 months ago
通过图像描述的方式改进多模态数据集
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准
→
PDF
a year ago
检索增强转换器用于图像字幕生成
本论文中,我们研究了一种基于 kNN 记忆的图像字幕生成方法,其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO
→
PDF
2 years ago
Prev
Next