vision-language learning | BriefGPT

关键词vision-language learning

搜索结果 - 4

CVPRSnAG: 视频定位的可扩展和准确性
在本文中，我们研究了跨模态融合对视频定位模型可扩展性的影响，通过分析发现，针对长视频和大量文本查询的情况，后期融合是一种更具成本效益的融合方案，并提出了一种基于视频的采样方案以实现高效训练。基于这些发现，我们提出了 SnAG，作为可扩展且准
PDF3 months ago
开放环境中的主动推理
最近，在视觉 - 语言学习方面取得了显著的成功，通过整合广泛的世界知识在完整信息的问答数据集上。然而，大多数模型是被动操作的，基于预先存储的知识来回答问题。与此相反，人类具有积极探索、积累和推理的能力，可以利用新发现和已有信息来解决不完整信
PDF8 months ago
Cheap and Quick: 大型语言模型高效的视觉语言指导调整
本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景
PDFa year ago
使用编码将 ECG 信号转换为图像以实现高效的图像 - 文本检索
本研究介绍了一种新颖的心电图 (ECG) 自动识别方法，采用最近的大型语言模型 (LLM) 和 Vision-Transformer (ViT) 模型。该方法通过将 ECG 编码为图像并采用视觉语言学习范式来自动识别相似的临床病例，从而实现
PDFa year ago