CogCoM:通过一系列操作训练大型视觉语言模型深入细节
通过 LLM-Human-in-the-Loop 流程和 CURE 基准,我们评估了现有的 VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段,我们进一步通过结合 LLMs 提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。
Sep, 2023
我们提出了 CoVLM 框架,通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接,从而大幅提升了以往视觉语言模型在组合推理任务上的性能,并在传统的视觉 - 语言任务中取得了最先进的表现。
Nov, 2023
通过协调多个视觉 - 语言模型,我们提出 Cola,这是一种新颖的方法,通过促进自然语言交流以利用它们的不同且互补的能力,大型语言模型可以高效地协调多个视觉 - 语言模型,从而实现令人印象深刻的视觉推理能力。
Oct, 2023
CogVLM 是一种强大的开源视觉语言基础模型,通过可训练的视觉专家模块在注意力和前馈网络层之间填补了预训练语言模型和图像编码器之间的差距,实现了视觉语言特征的深度融合,而不会牺牲在自然语言处理任务上的性能, 在 10 个经典的跨模态基准测试中取得了最先进的性能,包括 NoCaps,Flicker30k 字幕,RefCOCO,RefCOCO +,RefCOCOg,Visual7W,GQA,ScienceQA,VizWiz VQA 和 TDIUC, 在 VQAv2,OKVQA,TextVQA,COCO 字幕等方面排名第二,超过或与 PaLI-X 55B 相匹配。
Nov, 2023
基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation,实现了视觉压缩并提高推理效率,能够理解时间相关性,在多模态应用中具有广泛的潜力。
Jun, 2024
介绍了一种名为 Chain-of-Spot(CoS)的交互推理方法,通过关注图像中与问题或指令相对应的关键区域(ROI),增强特征提取,提供了多粒度图像特征,从而显著提高了大型视觉 - 语言模型(LVLMs)在理解和推理视觉内容方面的能力。
Mar, 2024
通过使用连锁图像方法,将复杂的语言推理问题转化为简单的模式识别,并引入一种符号化的多模态大型语言模型,该模型可以根据语言指令生成图像并接受文本和图像作为输入,实验结果表明连锁图像方法显著提高了在几何学、国际象棋和常识任务上的性能。
Nov, 2023
我们的研究工作探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理(VCR)中的协同能力。我们将 VCR 问题分为视觉常识理解(VCU)和视觉常识推断(VCI)两个方面。在 VCU 方面,预训练的 VLM 展示出强大的跨数据集泛化能力。然而,在 VCI 方面,VLM 面临困难。我们提出了名为 ViCor 的协作方法,在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估,并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。
Oct, 2023
该论文提出了 Visual CoT,一种利用多模态大型语言模型(MLLMs)的推理能力的新型流程,通过结合可解释性认知链条(CoT)推理来处理复杂的视觉输入,并提供可解释的思路。我们收集并引入了 Visual CoT 数据集,该数据集包含 373k 个问题 - 答案对,通过中间边界框突出显示回答问题所必要的关键区域,能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性,并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。
Mar, 2024
本文提出自动操作求解器(AMSolver)系统和基于其构建的视觉与语言操作基准(VLMbench),用于处理基于语言指令的机器人操作任务,并开发了基于关键点的 6D-CLIPort 模型来处理多视角观察和语言输入并输出一系列 6 自由度(DoF)动作。
Jun, 2022