BriefGPT.xyz
Ask
alpha
关键词
vision-language domain
搜索结果 - 3
朝着联邦学习中的多模态 Transformer
在视觉语言领域中,通过利用转换器架构对现有方法进行系统评估,并引入一种名为 FedCola 的新框架,填补了关于不配对的单模客户端和 FL 中转换器架构的研究空白。通过在各种 FL 设置下进行广泛实验,FedCola 展示了优于先前方法的性
→
PDF
3 months ago
ICCV
迈向视觉语言机制可解释性:一种用于 BLIP 的因果追踪工具
通过引入一种单模态因果追踪工具,我们适应了 BLIP 以研究图像条件下文本生成的神经机制,并在视觉问答数据集上展示了我们的方法,强调了较晚层表示对所有标记的因果相关性。此外,我们将我们的 BLIP 因果追踪工具开源,以便社区进一步探索视觉语
→
PDF
10 months ago
MetaVL:从语言模型向视觉语言模型转移上下文学习能力
本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力,通过将自然语言处理领域的元学习应用于视觉 - 语言领域,并使用视觉编码器实现跨域转移学习,实验证明可以显著提高视觉问答任务的上下文学习能力,甚至可以补偿模型的大小并取得
→
PDF
a year ago
Prev
Next