SwitchGPT:适用于非文本输出的大型语言模型调整
利用新的多模态大型语言模型 AlignGPT,通过在预训练阶段为不同的图像 - 文本对分配不同级别的对齐能力,并在指导微调阶段自适应地组合这些不同级别的对齐能力,以满足不同指令的动态对齐需求,取得了 12 个基准测试的竞争性性能。
May, 2024
我们介绍了一个名为 NExT-GPT 的全方位任意多模式多语言模型系统,通过使用多模态适配器和不同扩散解码器,NExT-GPT 能够接受和生成文本、图像、视频和音频等任意组合的内容,并通过调优投影层的少量参数进行训练和扩展,使其具备复杂的跨模态语义理解和内容生成能力,为构建能够模拟通用模态的人工智能代理提供了有前景的可能性。
Sep, 2023
本文提出了一种名为 X-LLM 的多模态语言模型,它将多种形式的信息转化为语言输入到 ChatGLM 中进行处理,实现了语言模型的多模态能力,具有与 GPT-4 相当的人工智能水平,同时还能用于语音识别和多模态语音识别。
May, 2023
本综述论文探讨了多模态大型语言模型(MLLMs),该模型整合了类似于 GPT-4 的大型语言模型(LLMs),用于处理文本和视觉等多模态数据。MLLMs 展示了生成图像叙述和回答基于图像的问题等能力,缩小了人与计算机之间的差距,并暗示了通向人工智能的潜在途径。然而,MLLMs 仍面临处理多模态语义差距的挑战,可能导致错误生成,对社会造成潜在风险。选择适当的模态对齐方法至关重要,因为不恰当的方法可能需要更多参数,并且性能改进有限。该论文旨在探讨 LLMs 的模态对齐方法及其现有能力。实施模态对齐使得 LLMs 能够解决环境问题并提高可访问性。研究调查了 MLLMs 中现有的模态对齐方法,分为四个组:(1)多模态转换器将数据转换为 LLMs 可以理解的格式;(2)多模态感知器改善 LLMs 对不同类型数据的感知能力;(3)工具辅助将数据转换为一种常见格式,通常是文本;以及(4)数据驱动方法教导 LLMs 理解数据集中特定类型的数据。这个领域仍处于探索和试验阶段,我们将组织和更新各种现有的多模态信息对齐研究方法。
Nov, 2023
该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。
May, 2023
探讨大型语言模型的结构、训练数据、训练策略和不同指令对模型的影响,并且创建了一个既包括图像任务又包括视频任务的全面评估集,最终呈现了 Lynx,该模型在保持最佳多模生成能力的同时,表现出最准确的多模态理解能力。
Jul, 2023
引入了 ModaVerse,一种多模态大型语言模型(MLLM),能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐,避免了潜在特征对齐的复杂性,简化了现有 MLLM 的多个训练阶段,从而显著降低了数据和计算成本。在多个基准实验中,我们的方法取得与最先进技术相当的性能,同时在数据使用和训练时间上实现了显著的效率提升。
Jan, 2024
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述,我们揭示了 MM-LLM 在各种应用中的转型潜力。
Mar, 2024
通过使用 Large Language Models (LLMs),我们提出了 ModelGPT 框架,以满足用户的特定需求,并以更快的速度生成定制化的 AI 模型,以实现更加便利和用户友好的人工智能模型。
Feb, 2024
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023