- 视觉语言基础模型中的运动预测中的难例检测
该研究探讨了使用 Vision-Language Foundation Models(VLMs)在自动驾驶中检测困难案例的潜力,并展示了 VLMs 在交通参与者运动预测中检测困难案例的能力。通过 VLMs 检测困难案例,进一步提高了现有运动 - 基于超球面空间的参数高效微调用于开放词汇语义分割
使用对称参数高效微调策略在超球面空间中进行,H-CLIP 实现了开放式词汇语义分割的新 SOTA 结果,只需更新 CLIP 总参数的约 4%。
- 通过文本引导的多样的新颖特征合成将 CLIP 普及到未知领域
我们提出了一种插拔式特征增强方法,称为 LDFS(语言引导的多样特征合成),通过合成新领域特征和改进现有的 CLIP 微调策略,从未见过的领域中提高 CLIP 的泛化能力,而无需从这些领域收集数据。
- 开放词汇分割的可转移和原则性效率
通过利用较小、训练成本更低的模型,本论文的核心策略旨在实现与基于大型视觉语言基础模型的先前开放词汇分割工作相媲美甚至更好的性能,以解决开放词汇分割(OVS)方法面临的高计算开销问题,并在各种 OVS 基准测试中展示了我们在分割准确性和计算成 - CVPRMA-LMM:用于长期视频理解的增强记忆大型多模态模型
通过在在线方式处理视频并将过去的视频信息存储在记忆库中,该研究提出了一种用于长期视频理解的高效有效模型,可以超越语言模型的上下文长度限制和 GPU 内存限制,并在多个数据集上实现了最先进的性能。
- GOV-NeSF: 通用开放词汇神经语义领域
通过引入 Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF),我们提出了一种对 3D 场景进行泛化的隐式表示方法,显著提升了 2D 和 3D 开放词汇语义分割的性能 - VideoAgent: 基于大型语言模型的长视频理解
利用一个新型的基于代理的系统,以长篇视频理解为挑战,通过交互性推理和规划来处理长时间的多模式序列,同时使用大型语言模型作为中央代理来识别和编译关键信息以回答问题,视觉语言基础模型用于翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 - 视觉语言模型泛化的不变测试时间适应
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
- FM-Fusion: 基于视觉 - 语言基础模型的实例感知语义映射增强
基于视觉 - 语言基础模型,本研究提出了一种概率标签融合方法,用于从开放集标签测量中预测闭合集语义类别,以增强基于实例感知的语义映射;通过整合各模块构建一个统一的语义映射系统,并通过 ScanNet 和 SceneNN 数据集评估了方法的零 - M^2-Encoder: 大规模高效预训练推动双语图像 - 文本理解
我们介绍了一个包含 60 亿个图像 - 文本配对的双语(中英文)数据集 BM-6B,通过提出一种新颖的分组聚合方法来处理此规模的数据集,大大减少了通信开销和 GPU 内存需求,从而提高了训练速度,我们预训练了一系列双语图像 - 文本基础模型 - CheXagent: 朝向胸部 X 射线解读的基础模型
通过引入 CheXinstruct 数据集、设计临床大规模语言模型、图像编码器和网络以及引入 CheXbench 基准来解决医疗影像领域中胸部 X 射线图像自动解释的挑战,并证明 CheXagent 在这些任务中优于先前开发的通用和医学领域 - UMG-CLIP: 一个统一的多粒度视觉通才用于开放世界理解
该研究扩展了 CLIP 模型的多粒度对齐,在多个层次上构建了伪注释数据集,并开发了名为 UMG-CLIP 的统一多粒度学习框架,通过参数高效调整,实现了在各种图像理解基准测试中超越当前广泛使用的 CLIP 模型,包括开放世界识别、检索、语义 - InternVL:扩展视觉基础模型并对通用视觉语言任务进行对齐
通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到 60 亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
- Lowis3D: 基于语言驱动的开放世界实例级别 3D 场景理解
通过使用视觉 - 语言(VL)基础模型,将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述,在对象级别进行细粒度的视觉 - 语义表示学习,并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问 - 利用视觉 - 语言基础模型进行精细化下游任务
本文提出了基于正 / 负提示公式的多任务微调策略来进一步利用视觉语言基础模型的能力,以解决 CLIP 等模型在细粒度属性检测和定位等下游任务中遇到的问题,并在 CUB200-2011 数据集上提高分类性能。
- 基于指令微调基础模型的多模式网络导航
本文提出了一种基于视觉 - 语言模型的指令驱动表征,通过离线培训方式对 WebGUM 模型进行了训练,使其在视觉感知、HTML 理解和多步推理能力上表现出色,相比现有最佳方法提高了 31.9%以上。
- CVPR基于语言引导的三模态一致性音视频源分离
利用自监督学习方法,通过自然语言查询基于无标注视频和音频对进行音频源分离的学习,以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合,其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督,并在推理阶段能够分离声音 - CVPR基于基础模型反馈的政策调整
使用基於視覺和語言的模型的預先訓練模型作為演示解決方案,通過 Policy Adaptation from Foundation model Feedback(PAFF)技術可以在任務和環境不斷變化的情況下,創建可以實現分類、物體抓取和導航 - CVPRPLA: 基于自然语言的开放词汇三维场景理解
通过对具有语义丰富标题的多视图图像进行记录,来设计分层三维标题对,使用对比学习,学习与图像相连的语言感知嵌入,并在开放词汇语义和实例分割方面表现出卓越的性能,具有鲁棒的可迁移性。