通用多模态人工智能：架构、挑战与机遇综述

Jun, 2024

通用多模态人工智能：架构、挑战与机遇综述

Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities

Sai Munikoti, Ian Stewart, Sameera Horawalavithana, Henry Kvinge, Tegan Emerson...

TL;DR多模态模型在人工智能的未来进展中被认为是一个关键组成部分，本文通过一种新的架构和训练配置特定的分类方法，从多个角度对通用多模态模型进行了综述，并提出了关键挑战和前景。

Abstract

multimodal models are expected to be a critical component to future advances in artificial intelligence. This field is starting to grow rapidly with a surge of new design elements motivated by the success of

multimodal models artificial intelligence foundation models modality generalist multimodal models

发现论文，激发创造

从高效多模型到世界模型：一项调研

多模态大模型（MLMs）是一个重要的研究重点，通过将强大的大型语言模型与多模态学习相结合，对不同的数据模态执行复杂任务。本文综述了 MLMs 的最新发展和挑战，强调它们在实现人工通用智能和作为世界模型路径中的潜力。我们概述了关键技术，如多模态思维链（M-COT），多模态指导调优（M-IT）和多模态上下文学习（M-ICL）。此外，我们讨论了多模态模型的基本和具体技术，突出了它们的应用、输入 / 输出模态和设计特征。尽管取得了显著进展，但统一的多模态模型的发展仍然困难。我们讨论了整合 3D 生成和具体模拟能力以增强世界模拟能力，并提出整合外部规则系统以改进推理和决策的方法。最后，我们概述了未来的研究方向，以应对这些挑战并推进该领域。

Jun, 2024

多模态基础模型：从专家到通用助手

本文综述了多模基础模型的分类和演变，重点关注从专业模型到通用助手的转变。研究领域包括两个核心主题：(i) 针对特定目的预训练的多模基础模型，包括学习视觉骨干进行视觉理解和文本到图像生成的方法；(ii) 旨在充当通用助手的多模基础模型的最新进展，包括受大型语言模型启发的统一视觉模型、多模语言模型的端到端训练以及将多模工具与语言模型相结合的方法。本文面向计算机视觉和视觉语言多模社区的研究人员、研究生和专业人士，他们渴望了解多模基础模型的基础知识和最新进展。

Sep, 2023

人工智能教育的多模态性：迈向人工通用智能

该研究全面探讨了多模态人工智能方法在教育环境中实现通用人工智能的途径，着重分析了人工智能在教育系统中的演进和整合，强调多模态学习（包括听觉、视觉、动觉和语言学习）的重要作用，研究深入探讨了通用人工智能的关键方面，包括认知框架、高级知识表示、自适应学习机制、战略规划、复杂语言处理和多样的多模态数据源整合，并批判性评估了通用人工智能在重塑教育范式、提高教学和学习效果、填补现有方法论空白以及在教育环境中解决伦理考量和负责任使用方面的潜力。该论文还讨论了多模态人工智能在教育中的意义，并提供对通用人工智能发展中未来方向和挑战的洞察。这项研究旨在为人工智能、多模态和教育的交叉领域提供细致的理解，为通用人工智能的未来研究和发展奠定基础。

Dec, 2023

多模态机器学习的基础和趋势：原理、挑战和开放性问题

本文旨在探讨多模态机器学习的计算与理论基础，定义了三个关键原则和六个核心技术挑战，并提出多个未来研究的开放性问题。

Sep, 2022

面向临床辅助基于成像的生物医学应用的多模态机器学习

机器学习在医疗人工智能系统中的应用，从传统和统计方法转向深度学习模型甚至最近的生成模型。近年来，发现了支持多模态数据集成的广泛可用的深度学习架构，尤其是针对图像的。将多种模态融入到这些模型中是一个蓬勃发展的研究课题，提出了独特的挑战。本文讨论了针对医学基于图像的临床决策支持模型的多模态人工智能的五大挑战（表示、融合、对齐、翻译和协同学习），并调查了近期解决这些挑战的方法。我们最后讨论了该领域的未来，并提出了在成功的临床模型及其在临床环境中的转化方面应进一步阐明的方向。

Nov, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

多模态机器学习：概述与分类

多模态机器学习作为一个充满潜力的多学科领域，在不断发展和完善，其普遍的分类包括：表示、翻译、对齐、融合和协同学习。该研究旨在通过共性的分类方式，综合总结目前该领域的研究进展，以期为未来的研究指明方向。

May, 2017

大型多模态代理：综述

大型语言模型在多媒体领域的研究和发展方向的全面回顾，介绍了大型多媒体代理的开发要素和分类，评估方法的编制以及未来研究方向的提出。

Feb, 2024

多模态大型语言模型（MLLMs）的推理能力探索：多模态推理中新兴趋势的综述

综合评估了多模态大语言模型的现有评估协议，分类和说明了多模态大语言模型的前沿，介绍了多模态大语言模型在推理密集型任务上的最新趋势，并讨论了当前的实践和未来的发展方向。

Jan, 2024

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019