BriefGPT.xyz
大模型
Ask
alpha
关键词
vision-language learning
搜索结果 - 4
CVPR
SnAG: 视频定位的可扩展和准确性
在本文中,我们研究了跨模态融合对视频定位模型可扩展性的影响,通过分析发现,针对长视频和大量文本查询的情况,后期融合是一种更具成本效益的融合方案,并提出了一种基于视频的采样方案以实现高效训练。基于这些发现,我们提出了 SnAG,作为可扩展且准
→
PDF
3 months ago
开放环境中的主动推理
最近,在视觉 - 语言学习方面取得了显著的成功,通过整合广泛的世界知识在完整信息的问答数据集上。然而,大多数模型是被动操作的,基于预先存储的知识来回答问题。与此相反,人类具有积极探索、积累和推理的能力,可以利用新发现和已有信息来解决不完整信
→
PDF
8 months ago
Cheap and Quick: 大型语言模型高效的视觉语言指导调整
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景
→
PDF
a year ago
使用编码将 ECG 信号转换为图像以实现高效的图像 - 文本检索
本研究介绍了一种新颖的心电图 (ECG) 自动识别方法,采用最近的大型语言模型 (LLM) 和 Vision-Transformer (ViT) 模型。该方法通过将 ECG 编码为图像并采用视觉语言学习范式来自动识别相似的临床病例,从而实现
→
PDF
a year ago
Prev
Next