- 再审视视觉语言模型的对抗鲁棒性:一种多模态的观点
通过研究视觉语言模型(VLMs)的自适应对抗性鲁棒性,我们引入了一种多模态对抗性攻击策略,并在图像和文本编码器上采用多模态对比对抗性训练损失,以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明,我们的方法显著提高了 C - 利用时间语境进行视频动作识别
TC-CLIP 是一种改进的视觉语言模型,通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。
- 使用虚词去偏以提升视觉 - 语言模型中的场景图生成
通过使用预训练的视觉 - 语言模型(VLMs)增强场景图生成(SGG)模型的表示,并结合语言模型估计(LM Estimation)来解决预训练与 SGG 之间的差距,我们的方法有效地处理了词汇偏见,加强了 SGG 的表示,并获得了显著的性能 - CVPRMeaCap: 存储增强的零样本图像描述
提出了一种新颖的记忆增强型零样本图像字幕生成框架(MeaCap),通过装备文本记忆并引入检索 - 过滤模块,使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型,生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕;该框架 - 连线:针对黑盒图像 - 语言模型的协作微调
该论文提出了一种名为 CraFT 的协作微调方法,用于将黑盒预训练视觉语言模型应用于下游任务,通过仅获得输入提示和输出预测来优化模型,并在少样本分类上展示出显著的结果。
- 香港科技大学在 SemEval-2023 任务 1 中的视觉词义消歧:通过上下文增强和视觉辅助
我们提出了一个多模态检索框架,充分利用了预训练的视觉 - 语言模型、开放知识库和数据集,通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测,为词义消歧和多模态学习领 - ChatGPT 强化层次比较在图像分类中的应用
使用预训练的视觉 - 语言模型,通过分层比较的方式,解决零样本开放词汇挑战中的图像分类问题,克服了 CLIP 中的偏差,实现了直观、有效且可解释的方法。
- 视觉语言模型是强化学习的零样本奖励模型
使用预训练的视觉语言模型作为无样本奖励模型以指定任务,通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务,表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。
- 通过引导裁剪实现零样本视觉分类
我们提出了 GC-CLIP,通过在预处理步骤中使用现成的零样本目标检测模型,增加零样本分类器对感兴趣目标的关注,并减少无关图像区域的影响,从而提高了零样本分类结果。
- 基于提示的上下文和领域感知预训练:视觉与语言导航
提出了一种基于提示的上下文和领域感知的预训练框架(PANDA),用于解决预训练视觉语言模型在视觉和语言导航任务中的领域差异和交叉模态对齐的问题,并通过对比学习进一步优化预训练模型。实验结果表明,PANDA 在 R2R 和 REVERIE 任 - ICCV利用合成提示来提升 CLIP 的零样本泛化能力
本文提出了一种基于生成式方法的模型适配方案 (SHIP),使用文本和图像信息进行训练的预训练模型 (CLIP) 可以在没有标签的类别上表现出更好的效果。在对基础数据集到新的数据集的泛化、跨数据集的迁移学习和广义的零样本学习等方面进行了广泛实 - ICMLChatGPT 辅助的可解释零样本医学图像诊断框架
该研究提出了一种基于 CLIP 和 ChatGPT 的零样本医学图像分类框架,使用大型语言模型自动生成额外的线索和知识以进行更准确和可解释的诊断,展示了 VLM 和 LLM 在医疗应用中的巨大潜力。
- SmartTrim:用于高效视觉语言模型的自适应令牌和参数剪枝
提出了一种智能修剪方法 SmartTrim,通过在模型中集成轻量级修剪模块,对冗余输入和参数进行任务特定修剪,不需要额外的预训练或数据增强,利用跨模态交互信息提供更重要的语义指导,以达到资源受限场景下更好的效率 - 性能平衡。
- 基于大型语言模型的复合视觉线索进行零样本视觉关系检测
通过使用 RECODE 方法,利用预训练图像 - 语言模型,我们能够解决零样本可视关系检测中存在的问题,提高了关系检测的准确性和可解释性。
- ACL一种神经分而治之的推理框架,用于从语言复杂的文本中检索图像
本文提出了一种名为 NDCR 的端到端的神经分治推理框架,将语言复杂的文本视为由多个简单命题句组成的复合命题文本,并包含三个主要组件:命题生成器、基于预训练 VLM 的视觉语言交互器以及神经符号推理器,该框架在复杂的图像 - 文本推理问题中 - 将互联网规模的视觉 - 语言模型化为具体智能体
本文提出了一种利用预训练的视觉语言模型(VLMs)来监督具有目的地行动的体验型智能体从而让其学会与不同类别的对象交互的新型方式。通过少量提示和后见之明体验回放(HER)技术,我们可以使体验型智能体学习抽象类别的成员资格以及与特定任务相关的语 - 基于视觉语言模型的指令增强机器人技能习得
本论文介绍了一种名为 DIAL 的方法,利用半监督的语言标签,结合 CLIP 的语义理解,将知识传播到大型未标记的数据集中,并在增强的数据集上训练语言条件下的策略,从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的 60 个新指令。
- 学习生成软提示用于组合式零样本学习
本文提出了一种叫做 CSP 的组成式软提示技术,用于提高大规模预训练视觉 - 语言模型的零样本组成性能;对比已有的方法,CSP 通过训练学习组件而不是固定的预设生词表,可以实现更好的预测表现。