MoAI:大规模语言和视觉模型的全智能混合
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023
利用大型语言模型的集体优势,提出了一种基于多代理的混合方法,该方法在多个任务上取得了领先的性能,特别在 AlpacaEval 2.0 上实现了 65.1% 的得分,超过了 GPT-4 Omni 的 57.5%。
Jun, 2024
该研究探索了多模态大型语言模型在处理复杂的多步骤任务中的能力,重点研究了模型的可操控性、可组合性以及对长期记忆和上下文理解的应用。通过评估 800 个导向性对话的结果,本研究发现不同任务的完成难度存在明显差异,强调了开发结合长期记忆和上下文意识的语言模型在复杂问题解决情境中模拟人类思维过程的重要性。
Nov, 2023
本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。此外,本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA,通过在部署过程中仅激活前 k 个专家,使剩余的专家处于非活跃状态。实验证明,MoE-LLaVA 在视觉理解方面具有出色的能力,并且在模型输出的对象幻象基准测试中超越了 LLaVA-1.5-13B,在各种视觉理解数据集上表现可与 LLaVA-1.5-7B 相媲美。通过 MoE-LLaVA,我们旨在为稀疏 LVLMs 建立基准,并为未来开发更高效和有效的多模态学习系统提供有价值的见解。
Jan, 2024
通过引入一种称为 MoI 的新技术,结合指令拼接和多样化系统提示的策略来提高语言模型的对齐效率,我们取得了显著的编码、数学和工具使用任务生成能力的进展。
Apr, 2024
该研究论文以大型多模型为主题,探索了通过特定数据集设计的提示词,使用 LMMs 来执行图像分类任务的功效,并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析,实验结果表明模型在 MNIST,Cats Vs. Dogs,Hymnoptera(Ants Vs. Bees)以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能,无需进行任何微调即可达到 85%,100%,77%和 79%的分类准确率。此外,细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进,强调了 LLVAs 的变革潜力和在现实场景中的多样应用。
Dec, 2023
稀疏注意力能够有效缓解大型语言模型在长上下文中的内存和吞吐量需求,我们提出了混合注意力(MoA),它能够自动为不同的注意力头部和层级适应不同的稀疏注意力配置,通过优化稀疏注意力压缩方案,MoA 在保持平均注意力范围不变的情况下,将有效上下文长度提高 3.9 倍,并在多个评估指标上取得 1.5-7.1 倍的准确性提升,在 GPU 内存减少 1.2-1.4 倍的同时,提升解码吞吐量 5.5-6.7 倍。
Jun, 2024
本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM,通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理,从而统一了视觉和语言任务的视角,具有不同级别的任务定制能力,成为一种通用的视觉和语言模型。
May, 2023
近期,大型语言模型(LLMs)与计算机视觉(CV)的交叉领域成为人工智能(AI)领域重要的研究领域,驱动了重大的进展。该综述论文探讨了变压器及其后继者在转换器和大型语言模型中的最新进展,强调了其对视觉变压器和 LLMs 的革命潜力。同时通过对多个领先的付费和开源 LLMs 的性能指标的对比分析,揭示了它们的优势和改进空间,并回顾了 LLMs 如何用于解决视觉相关任务的文献综述。此外,该综述还提供了用于训练 LLMs 的全面数据集合,并为 LLMs 的预训练和下游任务的高性能实现提供了洞见。综述通过强调 LLMs 在 CV 上的深刻交叉,指出了集成和先进 AI 模型的新时代的潜在研究和发展方向。
Nov, 2023