BriefGPT.xyz
Ask
alpha
关键词
vision encoders
搜索结果 - 5
适应分布偏移的大规模多模态模型:内文学习的作用
本文研究了在特定领域如医疗保健中,大型多模态模型(LMMs)虽然具有高鲁棒性,但仍需要领域特定的适应性,因此提出了一种有效的解决方案 —— 上下文学习(ICL)。通过评估无监督的 ICL 方法和提出的基于类别条件对比不变性(CCI)的 In
→
PDF
2 months ago
BRAVE:拓宽视觉语言模型的视觉编码
通常,视觉语言模型(VLM)由视觉编码器(例如 CLIP)和解释编码特征以解决下游任务的语言模型(LM)组成。我们研究拓展 VLM 的视觉编码能力以应对其局限性,我们首先全面评估了几个具有不同归纳偏差的视觉编码器在解决 VLM 任务时的性能
→
PDF
3 months ago
TinyLLaVA:一个小规模大型多模态模型的框架
通过 TinyLLaVA 框架的研究与实验,我们发现数据的质量、训练配方和模型选择对于设计和分析小规模的大型多模型模型非常重要;通过将更好的数据质量和更好的训练配方相结合,我们发现较小规模的模型可以与更大规模的模型达到相当的性能,这些发现可
→
PDF
4 months ago
PaLM2-VAdapter:渐进对齐语言模型构建强大的视觉语言适配器
我们的研究表明,渐进对齐语言模型能够有效地连接冻结的视觉编码器和大型语言模型。通过采用渐进对齐的语言模型作为视觉 - 语言适配器,我们的方法在收敛速度、性能和可扩展性方面都超过了现有的方法,并且使用的参数数量比现有的大规模视觉 - 语言模型
→
PDF
5 months ago
适用于视觉和语言任务的视觉编码器互补性研究
本研究利用三个常用的视觉编码器对六种下游视觉语言任务进行了详细实验,并对注意力机制和编码器 - dropout 模式进行了分析,结果显示不同的视觉编码器互补,可以提高下游视觉语言任务的性能而不是简单的合成效果,且未来的视觉编码器有望提高目标
→
PDF
2 years ago
Prev
Next