LLMs 满足多模态生成和编辑的综述
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述,我们揭示了 MM-LLM 在各种应用中的转型潜力。
Mar, 2024
通过呈现示例创新的学习场景,探索了多模态大语言模型 (MLLMs) 在科学教育的核心方面的转变作用,包括文本创作、个性化学习支持、培养科学实践能力以及提供评估和反馈。同时,强调了在实施 MLLMs 时采取平衡的方法的必要性,确保技术对教育者角色的补充,以确保人工智能在科学教育中的有效和道德使用。
Jan, 2024
本研究综述了生成人工智能(Generative AI)和大语言模型(LLMs)在视频技术领域中的应用,包括视频生成、理解和流媒体,强调了这些技术在产生高度逼真视频方面的创新应用,在实现现实世界动态与数字创作之间存在重大差距的时候迈出了重要一步。同时,作者还深入探讨了 LLMs 在视频理解方面的先进能力,展示了它们从视觉内容中提取有意义信息的有效性,从而提升了我们与视频的互动。在视频流媒体领域,本文讨论了 LLMs 如何为更高效、以用户为中心的流媒体体验做出贡献,将内容传递适应个体观众的偏好。通过梳理生成 AI 和 LLMs 在与多媒体、网络和人工智能社区相关的视频技术任务中的当前成就、持续挑战和未来可能性,本文突显出这些技术在推动视频技术领域发展方面的巨大潜力。
Jan, 2024
综述了过去一年多模态大型语言模型(MM-LLMs)的进展,提供了对 MM-LLMs 的全面调查,包括模型架构和训练流程的设计概述,介绍了 26 种不同形式的 MM-LLMs,并回顾了其在主流基准上的性能以及提升其效力的关键训练方法,同时探索了 MM-LLMs 领域的前景方向。
Jan, 2024
该调查论文介绍了 LLMs 和 MLLMs 的发展背景和原则,并探讨了它们在医学中的应用场景、挑战和未来方向。通过追踪从传统模型到 LLMs 和 MLLMs 的演变,概括了模型结构以提供详细的基础知识。强调 LLMs 和 MLLMs 在医疗保健中的巨大价值,调查总结了 6 个有前景的医疗应用。同时讨论了医学 LLMs 和 MLLMs 面临的挑战,并提出了将人工智能与医学进一步整合的可行方法和方向。旨在为研究人员提供一个有价值且全面的参考指南。
May, 2024
本综述论文探讨了多模态大型语言模型(MLLMs),该模型整合了类似于 GPT-4 的大型语言模型(LLMs),用于处理文本和视觉等多模态数据。MLLMs 展示了生成图像叙述和回答基于图像的问题等能力,缩小了人与计算机之间的差距,并暗示了通向人工智能的潜在途径。然而,MLLMs 仍面临处理多模态语义差距的挑战,可能导致错误生成,对社会造成潜在风险。选择适当的模态对齐方法至关重要,因为不恰当的方法可能需要更多参数,并且性能改进有限。该论文旨在探讨 LLMs 的模态对齐方法及其现有能力。实施模态对齐使得 LLMs 能够解决环境问题并提高可访问性。研究调查了 MLLMs 中现有的模态对齐方法,分为四个组:(1)多模态转换器将数据转换为 LLMs 可以理解的格式;(2)多模态感知器改善 LLMs 对不同类型数据的感知能力;(3)工具辅助将数据转换为一种常见格式,通常是文本;以及(4)数据驱动方法教导 LLMs 理解数据集中特定类型的数据。这个领域仍处于探索和试验阶段,我们将组织和更新各种现有的多模态信息对齐研究方法。
Nov, 2023
综合评估了多模态大语言模型的现有评估协议,分类和说明了多模态大语言模型的前沿,介绍了多模态大语言模型在推理密集型任务上的最新趋势,并讨论了当前的实践和未来的发展方向。
Jan, 2024