BriefGPT.xyz
大模型
Ask
alpha
关键词
vl tasks
搜索结果 - 4
构建多语言视觉文本数据集揭示视觉语言模型的多语言能力
我们通过模板构建了四种语言的多语言视觉文本数据集,介绍了九项视觉语言任务,并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。
PDF
3 months ago
对比区域指导:在无需训练的视觉语言模型中改善定位
通过对视觉线索进行引导,使用对比区域引导(CRG)方法可以提高视觉 - 语言模型(VLMs)在多种视觉 - 语言任务上的性能,减少模型偏见,提高准确性。
PDF
4 months ago
COLING
了解视觉和语言任务中的注意力
本文综合分析了不同注意力计算方法在视觉与文本特征之间建立语义联系方面的作用,以及该计算机制的可解释性与模型性能之间的关系,研究结果表明不同的计算机制在不同 VL 任务的表现存在差异,这为注意力机制在 VL 任务中的训练中提供了洞见,对于建立
→
PDF
2 years ago
骨干部分融合的粗到精视觉 - 语言预训练
FIBER 是一个用于 Vision Language(VL)的新型 VL 模型结构,通过将交叉注意力插入图像和文本骨干网络,将多模态融合深入到模型中,并使用两阶段预训练策略,可以在 VL 任务中提供一致的性能提升。
PDF
2 years ago
Prev
Next