- 通过强化学习将大型视觉语言模型细调为决策代理
使用强化学习对视觉语言模型进行微调,提出了一种算法框架来增强其决策能力,验证了连续思维推理的重要性,并展示了在各种任务中超越商业模型的性能。
- 联合提示学习中通用化与个性化的协调
通过使用预先训练的视觉语言模型(VLM)调整提示,联邦提示学习(FPL)将大规模预训练的视觉语言模型(VLM)整合到联邦学习中,以达到在个性化和泛化之间取得平衡的目标。
- 通过相邻区域注意力对齐进行开放式目标检测
提出了一种邻近区域注意力对齐的方法,通过在一组邻近区域的注意力机制内进行对齐来提升开放词汇推理,进而协助检测器和预训练视觉语言模型之间的对齐,在开放词汇基准测试中展现出优秀的性能。
- 推动科学中的 AI 公平性:通用领域提示学习助力面向普及的 VLM 研究
大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。然而,构建强大的特定领域 VLMs 需要大量的注释数据、大量的电能和计算资源,这些主要是工业界可用的,却制约了学术界对 VLMs 的研究。为 - 改进提示调整中的文本语义是否可以提高 VLM 的泛化能力?
通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。
- ICML面向高效视觉 - 语言微调的记忆空间视觉提示
当前关于高效构建大型视觉语言模型的解决方案采用两步骤范式:将预训练视觉编码器的输出投射到预训练语言模型的输入空间作为视觉提示,然后通过端到端参数高效调优(PEFT)将模型转移到下游视觉语言任务。然而,这一范式仍然存在低效性,因为它显著增加了 - CVPRTHRONE: 一个基于物体的幻觉评估基准,用于自由形态大型视觉语言模型的生成
我们提出了 THRONE,一个用于评估 LVLM 自由形式输出中 Type I 幻觉的新颖基于对象的自动框架。我们使用公共语言模型(LM)来识别 LVLM 响应中的幻觉并计算信息度量。通过使用公共数据集评估大量最新的 LVLM,我们发现改进 - 学会看但忘记跟随:视觉指令调整使 LLMs 更容易遭受越狱攻击
研究通过图像理解扩展大型语言模型(LLMs)已经产生了高性能的视觉语言模型(VLMs)。虽然研究 LLMs 与人类价值观的一致性已经得到了广泛的关注,但 VLMs 的安全性却未受到同样的关注。本文探讨了越狱对三种最先进的 VLMs 的影响, - 图像智能描述技术研究与应用
通过精细图像描述训练视觉语言模型的框架和数据集的介绍,验证了其在数据质量和与先前工作的比较中的优势,并展示了模型在生成最接近原始图像的描述以及在多个数据集上的表现优势。
- 关于视觉语言模型的测试时零样本泛化:我们真的需要提示学习吗?
通过研究大型视觉 - 语言模型,特别是 CLIP,有效的调整技术,主要关注软提示调整,这催生了一系列研究。与此同时,测试时数据增强正在成为一个重要的研究领域,它利用图像的多个增强视角来增强零样本泛化能力。相反,我们提出了一种用于测试时数据增 - 构建视觉 - 语言模型时的要点
基于大语言模型和视觉变换的视觉语言模型(VLMs)的增长兴趣,我们观察到在 VLMs 设计中往往存在未经支持的决策,这使得很难确定哪些选择能够提高模型性能,为了解决这个问题,我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验,基于 - V-FLUTE: 视觉比喻语言理解与文本解释
使用视觉和语言模型进行图像和文字的理解,探索其在理解比喻和幽默等比喻现象方面的能力,并提出了一个新的任务和数据集,Visual Figurative Language Understanding with Textual Explanati - 上下文符号回归:利用语言模型进行函数发现
本文研究了将预训练的大型语言模型(LLMs)整合到 Symbolic Regression(SR)流程中,利用 LLMs 依据观测数据提出可能的函数,并通过模型自身和外部优化器逐步优化,取得令人满意的结果。同时,分析了在这一背景下的视觉 - - 医学视觉语言预训练用于脑部异常
本研究旨在展示如何从公共资源如 PubMed 中自动收集医学图像与文本对齐数据,构建用于具体医学任务的高性能视觉语言模型,并解决医学领域中子图到子标题的映射问题。
- BlenderAlchemy:使用视觉语言模型编辑 3D 图形
通过利用 Vision-Language Models(像 GPT-4V)智能地搜索设计动作空间,我们提出了一个系统,以满足用户意图的目标,结合了图像生成模型(image-generation models)的 “想象” 参考图像,为抽象语 - 拥抱多样性:超过每个类别一个向量的可解释零 - shot 分类
用推理属性在不需要重新训练的零 - shot 分类环境下对类别内的多样性进行编码和计算,提高零 - shot 分类的准确性、可解释性,以及适应性,从而实现透明的 AI 系统。
- ACL融合领域适应视觉和语言模型的医学视觉问答
通过在医学领域中使用大型视觉和语言模型,在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后,提出了一种医学视觉语言模型。这个模型在 SLAKE 1.0 医学问答 (MedVQA) 数据集上实现了最新的性能,整体 - 利用类别共现概率提升多标签识别
通过整合多标签识别、视觉语言模型、条件概率和图卷积网络,我们提出了一种方法来改进独立分类器的性能,并在多个多标签识别数据集上取得胜于现有方法的结果。
- FINEMATCH:基于方面的细粒度图像与文本不匹配检测与校正
提出了 FineMatch,一种新的面向细粒度文本和图像匹配的方面研究和评估 VLMs 组合性的基准,通过引入一个新的任务来检测和纠正文本和图像不匹配,对现有的主流 VLMs 进行了全面的实验分析。
- 使用来自视觉 - 语言模型的通用表示进行驾驶员活动分类
使用视觉 - 语言模型的通用表征,在司机活动分类中利用语义表示延迟融合神经网络(SRLF-Net)的新方法,通过对多个视角的同步视频帧进行处理,对每个帧进行预训练的视觉 - 语言编码器进行编码,并融合生成类别概率预测,利用对比学习的视觉 -