BriefGPT.xyz
Ask
alpha
关键词
vision-language foundation model
搜索结果 - 3
ED-SAM:一种高效的扩散抽样方法用于视觉 - 语言基础模型中的领域泛化
本文介绍了一种新的简单而高效的扩散采样方法(ED-SAM),以提高视觉语言基础模型的泛化能力,并通过生成对抗样本来改善模型对未知数据分布的适用性。实验结果表明,与其他最近的方法相比,所提出的 ED-SAM 方法在不同规模的视觉语言预训练数据
→
PDF
a month ago
RET-CLIP: 一种用临床诊断报告进行预训练的视网膜图像基准模型
本文开发了一种 CLIP 风格的视网膜图像基础模型 RET-CLIP,该模型在 193,865 名患者的数据集上进行特训,能够在四个关键的诊断类别中优于现有基准,包括糖尿病视网膜病变,青光眼,多疾病诊断和多疾病的多标签分类。
PDF
a month ago
MM
弱监督语义分割的问题 - 答案跨语言图像匹配
我们提出了一种基于问题回答跨语言图像匹配框架,利用视觉语言基础模型来最大化对图像的基于文本的理解,并引导激活图的生成,以解决现有激活地图方法在目标物体区域低激活和背景区域误激活的问题。
PDF
6 months ago
Prev
Next