BriefGPT.xyz
大模型
Ask
alpha
关键词
blip-2
搜索结果 - 4
CATP: 跨注意力令牌修剪以保留准确的多模态模型推理
使用跨注意力层和精确投票策略,Cross-Attention Token Pruning(CATP)方法在多模态模型中提取有价值信息来确定重要性,相对于其他方法能达到 12.1 倍的准确率提升,并解决了计算效率和模型精度之间的权衡。
PDF
3 months ago
通过反事实文本引导的对比语言 - 图像预训练理解新闻缩略图代表性
本文研究了新闻缩略图的代表性问题,重点关注新闻图像是否能够准确地代表新闻文本的主题。我们提出了一个手动标注的新闻缩略图和文本对的数据集 NewsTT,并发现预训练的视觉和语言模型在这个任务中遇到困难。为了弥补这一差距,我们提出了 CFT-C
→
PDF
5 months ago
ICCV
基于图像文本相似度和标题修改的数据比赛挑战:过滤轨道和自带设备轨道的利用
本文介绍了我们在 DataComp 挑战赛的筛选和修改轨道上的解决方案,采用大型多模态模型 CLIP 和 BLIP-2 对网络爬行数据进行过滤和修改,并利用外部数据集和一系列技巧来提高数据质量。实验证明我们的解决方案在 DataComp 基
→
PDF
8 months ago
BLIP-2:使用冻结图像编码器和大型语言模型引导语言图像预训练
本文提出 BLIP-2,一种通用且高效的预训练策略,通过使用冻结的图像编码器和大型语言模型来引导视觉语言表示学习,从而实现零样本图像到文本的生成。BLIP-2 在各种视觉语言任务上取得了最先进的性能。
PDF
a year ago
Prev
Next