- 语言引导的多任务机器人操作的对比模仿学习
本文介绍了一种多任务机器人操纵的逐字逐句学习方法,该方法通过自然语言指令和视觉观察实现在复杂真实环境中执行各种操纵任务的机器人代理。
- 双图强化 CLIP 用于零样本异常检测
通过引入双图增强 CLIP 方法,结合视觉 - 语言评分系统,对图像异常检测进行了增强,包括利用图像进行相互参考以增强推理过程的视觉环境,以及在测试时引入合成异常来提高定位能力。该方法充分利用了视觉 - 语言联合异常检测的潜力,并在各种数据 - 评估大型视觉语言模型时,我们究竟在衡量什么?潜在因素和偏见的分析
通过大规模的转移学习实验,从数据中发现潜在的视觉 - 语言技能,并揭示了对测试套件设计具有重要影响的有趣特性。
- CVPRAIDE:用于自动驾驶中目标检测的自动数据引擎
我们提出使用视觉语言和大型语言模型的最新进展设计自动数据引擎(AIDE),以自动识别问题、高效筛选数据、通过自动标注改进模型,并通过生成多样化场景验证模型,从而实现模型的持续自我改进。我们还在自动驾驶数据集上建立了一个开放世界检测基准,全面 - 几乎零成本的安全微调:视觉大型语言模型的基准
当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题,我们筛选了一个视觉语言安全指令数据集 VLGuard,并将其整合到标准的视觉语言微调中,使模型在安全性方面得到了有效的提升,同时对模型的帮助性影响最小 - 多模态基础模型的小样本自适应:综述
多模态模型的少样本适应方法在医学成像等领域仍有待提高,研究者提出了基于提示、适配器和外部知识的三种技术方法,本论文对这些方法进行了综述及对比,并推导出了多模态模型少样本适应的泛化误差界限及相应解决方案。
- AAAICOMMA: 共同表达多模式学习
本研究提出了 Co-Articulated Multi-Modal Learning (COMMA) 方法,通过联合考虑视觉和语言分支的提示来增强两者的表示对齐,并减轻预训练模型中基本知识的遗忘,实现在多个任务中对新类别、新目标数据集和未见 - 基于多模态视觉语言的人类病理学基础人工智能助手
PathChat 是一种通用的、视觉 - 语言人工智能助理,经过预训练的视觉编码器与预先训练的大规模语言模型相结合,可用于病理学的教育、研究和临床决策。
- 基于视觉语言变换器的新兴定位特性
采用预训练的视觉 - 语言模型,并借助 Grounding Everything Module (GEM) 的自我 - 自我注意机制,可以实现无需微调的零样本开放词汇的目标定位,并通过一系列正则化方法进一步提高模型的泛化能力。在各种基准任务 - 视觉语言模型的领域泛化鲁棒微调
在具有有限训练数据并在分布转变下无法有效推广的情况下,传统的迁移学习方法效果有限。然而,最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题,在此提出了一种适用于流行的视觉 - 语言基础模型 CLIP 的 - Kosmos-G: 使用多模态大型语言模型生成上下文中的图像
Kosmos-G 是一个模型,利用 Multimodal Large Language Models(MLLMs)的视觉感知能力来生成来自泛化视觉 - 语言输入的图像,尤其是涉及多张图像的情况。
- InternLM-XComposer:面向高级文本图像理解与构图的视觉语言大模型
我们提出了 InternLM-XComposer,一个能够实现高级图像 - 文本理解和组合的视觉语言模型。该模型具有三个吸引人的特点:1)交错式文本 - 图像组合:InternLM-XComposer 可以轻松生成连贯且情境感强的文章,将图 - LLaSM:大型语言和语音模型
大型语言和语音模型 (LLaSM) 是一个经过端到端训练的大规模多模态语音语言模型,具备跨模态对话能力,能够遵循语音和语言指令。LLaSM 通过提供更便捷和自然的方式,展示了人类与人工智能进行互动的方式。
- 图像 - 文本检索的多模态数据集精炼
基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进,可通过只用 100 个训练对(数量减少一个数量级)几乎使图像到文本的检索准确率翻倍。
- MM超越第一印象:整合多模态联合线索用于全面的 3D 表示
通过引入多视图联合模态建模方法,该研究论文提出了一种名为 JM3D 的新方法,以解决 3D 表示学习中的信息降解和不足协同问题,并在零样本 3D 分类任务上取得了领先于现有方法的性能。
- ICCVSINC:自我监督上下文学习用于视觉 - 语言任务
本文提出了一种自监督的上下文学习 (SINC) 框架,可以在视觉 - 语言领域的各种任务中进行前馈预测,无需通过渐变更新进行特定任务微调,并表明在少样本数据的情况下 SINC 方法优于基于梯度的方法。
- 通过语言模型预测手掌动作 @ Ego4D 长期行为预测挑战赛 2023
Palm 是一种利用视觉语言和大型语言模型解决长期动作预测任务的解决方案,通过组合图像字幕模型和大型语言模型可以提高常识推理能力, 并在 EGO4D LTA 挑战赛中表现出比其他参与者更好的动作预测表现。
- RS5M:一种用于遥感视觉语言的大规模数据集和基础模型
本文提出了一种新的框架,包括领域基础模型(DFM),该模型缩小了通用基础模型(GFM)和特定领域下游任务之间的差距,并通过预训练的 VLM 将筛选后的遥感图像与英文描述进行配对,构成了第一个大规模遥感图像 - 文本匹配数据集。在该数据集上的 - COSA: 连接样本预训练的视觉 - 语言基础模型
本研究提出了 COSA,一种 COncatenated SAmple 预训练视觉语言基础模型,它通过仅使用图像 - 文本语料库,联合建模视觉内容和事件级时间线索,使现有的图像 - 文本语料库转化为一种伪长篇视频 - 段落语料库,并在包括检索 - 医学视觉语言理解和生成的多模型预训练:新基准的实证研究
通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions),本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析,得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。