MoAI：大规模语言和视觉模型的全智能混合

Mar, 2024

MoAI：大规模语言和视觉模型的全智能混合

MoAI: Mixture of All Intelligence for Large Language and Vision Models

Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

TL;DR通过利用外部计算机视觉模型的输出所获取的辅助视觉信息，本文介绍了一种新型的大型语言和视觉模型（LLVM），名为混合智能（MoAI），通过整合视觉特征、外部模型的辅助特征和语言特征来在各种零样本视觉语言任务中显著优于其他 LLVMs，并且不需要增加模型大小或专门制定额外的视觉指令微调数据集。

Abstract

The rise of large language models (LLMs) and instruction tuning has led to the current trend of instruction-tuned large language and vision models (→

large language models instruction tuning computer vision llvms scene understanding

发现论文，激发创造

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

MoVA: 将多模态背景下的视觉专家混合进行调整

通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。

Apr, 2024

多智能体混合增强大型语言模型能力

利用大型语言模型的集体优势，提出了一种基于多代理的混合方法，该方法在多个任务上取得了领先的性能，特别在 AlpacaEval 2.0 上实现了 65.1% 的得分，超过了 GPT-4 Omni 的 57.5%。

Jun, 2024

通过可操控性和可组合性实现视觉智能和语言智能

该研究探索了多模态大型语言模型在处理复杂的多步骤任务中的能力，重点研究了模型的可操控性、可组合性以及对长期记忆和上下文理解的应用。通过评估 800 个导向性对话的结果，本研究发现不同任务的完成难度存在明显差异，强调了开发结合长期记忆和上下文意识的语言模型在复杂问题解决情境中模拟人类思维过程的重要性。

Nov, 2023

MoE-LLaVA：大规模视觉语言模型的专家混合

本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning，通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型，有效解决多模态学习和模型稀疏性带来的性能退化问题。此外，本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA，通过在部署过程中仅激活前 k 个专家，使剩余的专家处于非活跃状态。实验证明，MoE-LLaVA 在视觉理解方面具有出色的能力，并且在模型输出的对象幻象基准测试中超越了 LLaVA-1.5-13B，在各种视觉理解数据集上表现可与 LLaVA-1.5-7B 相媲美。通过 MoE-LLaVA，我们旨在为稀疏 LVLMs 建立基准，并为未来开发更高效和有效的多模态学习系统提供有价值的见解。

Jan, 2024

指令混合：通过多样系统提示指令对大型语言模型进行全面对齐

通过引入一种称为 MoI 的新技术，结合指令拼接和多样化系统提示的策略来提高语言模型的对齐效率，我们取得了显著的编码、数学和工具使用任务生成能力的进展。

Apr, 2024

拓展界限：利用大型多模态模型探索零样本物体分类

该研究论文以大型多模型为主题，探索了通过特定数据集设计的提示词，使用 LMMs 来执行图像分类任务的功效，并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析，实验结果表明模型在 MNIST，Cats Vs. Dogs，Hymnoptera（Ants Vs. Bees）以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能，无需进行任何微调即可达到 85％，100％，77％和 79％的分类准确率。此外，细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进，强调了 LLVAs 的变革潜力和在现实场景中的多样应用。

Dec, 2023

MoA: 自动大规模语言模型压缩的稀疏注意力混合

稀疏注意力能够有效缓解大型语言模型在长上下文中的内存和吞吐量需求，我们提出了混合注意力（MoA），它能够自动为不同的注意力头部和层级适应不同的稀疏注意力配置，通过优化稀疏注意力压缩方案，MoA 在保持平均注意力范围不变的情况下，将有效上下文长度提高 3.9 倍，并在多个评估指标上取得 1.5-7.1 倍的准确性提升，在 GPU 内存减少 1.2-1.4 倍的同时，提升解码吞吐量 5.5-6.7 倍。

Jun, 2024

VisionLLM：大型语言模型也是面向视觉中心任务的开放式解码器

本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM，通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理，从而统一了视觉和语言任务的视角，具有不同级别的任务定制能力，成为一种通用的视觉和语言模型。

May, 2023

大型语言模型与计算机视觉的融合：简要概述

近期，大型语言模型（LLMs）与计算机视觉（CV）的交叉领域成为人工智能（AI）领域重要的研究领域，驱动了重大的进展。该综述论文探讨了变压器及其后继者在转换器和大型语言模型中的最新进展，强调了其对视觉变压器和 LLMs 的革命潜力。同时通过对多个领先的付费和开源 LLMs 的性能指标的对比分析，揭示了它们的优势和改进空间，并回顾了 LLMs 如何用于解决视觉相关任务的文献综述。此外，该综述还提供了用于训练 LLMs 的全面数据集合，并为 LLMs 的预训练和下游任务的高性能实现提供了洞见。综述通过强调 LLMs 在 CV 上的深刻交叉，指出了集成和先进 AI 模型的新时代的潜在研究和发展方向。

Nov, 2023