关键词large pre-trained vision-language models
搜索结果 - 4
- CVPRAAPL:为视觉语言模型添加属性的提示学习
通过将属性添加到提示学习(AAPL)的方法,本研究通过对可学习的上下文进行引导,从而在提取文本特征时专注于未见类的高级特征,以解决传统图像增强对于未见类的泛化问题,实验证明 AAPL 在几 - shot 学习、零 - shot 学习、跨数据 - 视觉 - 语言模型的多模态特征提示
我们提出了一种多模态属性提示方法(MAP),通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型(VLMs)在少样本情况下的一些局限性,实验结果表明我们的方法在 11 个数据集上表现优于现有方法。
- 领域控制的提示学习
通过领域控制的提示学习方法,我们利用大规模特定领域基础模型和轻量级神经网络,在特定领域的遥感图像和医学图像中实现了最先进的性能,同时解决了过拟合挑战。
- CVPRDeAR: 使用附加残差进行去偏见视觉语言模型
本文提出了一种新的去偏方法 DeAR,通过学习加性残差图像表示来抵消原始表示,确保公正输出表示,并引入了 PATA 数据集来更好地评估这种方法的公平性与保持零样本性能的有效性。