BriefGPT.xyz
大模型
Ask
alpha
关键词
visual-language pre-trained models
搜索结果 - 3
无参考图像字幕评估指标中的眼镜蛇效应
评估文本描述与相应图像之间的兼容性是多模态研究中的核心工作之一。本文研究了无参考指标的不足之处,并提出了一种名为 “自我完善” 的新方法来纠正这些指标的不足,并通过 GPT-4V 评估生成的句子以获得最先进的性能。此外,我们还介绍了一个具有
→
PDF
5 months ago
基于视觉 - 语言预训练模型的零样本核团检测
该论文探讨了如何使用以大规模自然图像文本对为预训练基础的 VLPM 模型,在医学图像检测中实现零样本细胞核检测,并提出了一种基于自动提示设计管道的框架。通过自我训练,该方法在无标签的情况下表现出优异的细胞核检测性能,并展示了 VLPM 在医
→
PDF
a year ago
CVPR
CORA:使用区域提示和锚点预匹配来适应开放词汇检测的 CLIP 模型
利用 Region prompting 和 Anchor pre-matching 实现 CLIP 适应开放词汇检测任务,成功应用于目标检测并在评估中超越以前的最佳性能。
PDF
a year ago
Prev
Next