大型 AI 模型赋能的多模态语义通信

Sep, 2023

大型 AI 模型赋能的多模态语义通信

Large AI Model Empowered Multimodal Semantic Communications

Feibo Jiang, Yubo Peng, Li Dong, Kezhi Wang, Kun Yang...

TL;DR利用大型人工智能模型构建的大规模多模态语义通信（LAM-MSC）框架，通过多模态对齐、个性化语言模型和信道状态估计相结合来解决多模态语义通信中的数据异构性、语义歧义和信号衰落等挑战，并通过模拟实验验证了该框架的卓越性能。

Abstract

Multimodal signals, including text, audio, image and video, can be integrated into semantic communication (SC) for providing an immersive experience with low latency and high quality at the semantic level. However, the multimodal SC has several challenges, including data heterogeneity,

multimodal communication semantic communication large ai model multimodal alignment channel state information

发现论文，激发创造

基于大型人工智能模型的语义通信

在本研究中，我们提出了一种基于大型人工智能模型的语义通信框架（LAM-SC），该框架针对图像数据进行设计，其中我们首先设计了一个基于任意语义知识的分割任何模型（SAM）的知识库（SKB），可以通过通用语义知识将原始图像分割为不同的语义片段。然后，我们提出了一种基于注意力的语义集成（ASI），用于权衡由 SKB 生成的语义片段，并将它们整合为语义感知图像。此外，我们提出了一种自适应语义压缩（ASC）编码，以去除语义特征中的冗余信息，从而减少通信开销。最后，通过仿真实验，我们证明了 LAM-SC 框架的有效性以及基于大型人工智能模型的知识库在未来语义通信范例中的重要性。

Jul, 2023

基于视觉语言模型的跨模态语义通信系统

提出了一种新颖的基于视觉 - 语言模型的跨模态语义通信系统，通过跨模态知识库、记忆辅助编解码和噪声注意模块来解决图像语义通信系统中的挑战，实验证实了该系统的有效性、适应性和鲁棒性。

May, 2024

大型生成模型辅助的 3D 语义通信

6G 中一种新的数据传输范式为语义通信（SC），然而在 3D 情景中进行 SC 时存在几个挑战，包括 3D 语义提取、潜在语义冗余和不确定的信道估计。为了解决这些问题，我们提出了一种基于生成 AI 模型辅助的 3D SC（GAM-3DSC）系统。

Mar, 2024

从高效多模型到世界模型：一项调研

多模态大模型（MLMs）是一个重要的研究重点，通过将强大的大型语言模型与多模态学习相结合，对不同的数据模态执行复杂任务。本文综述了 MLMs 的最新发展和挑战，强调它们在实现人工通用智能和作为世界模型路径中的潜力。我们概述了关键技术，如多模态思维链（M-COT），多模态指导调优（M-IT）和多模态上下文学习（M-ICL）。此外，我们讨论了多模态模型的基本和具体技术，突出了它们的应用、输入 / 输出模态和设计特征。尽管取得了显著进展，但统一的多模态模型的发展仍然困难。我们讨论了整合 3D 生成和具体模拟能力以增强世界模拟能力，并提出整合外部规则系统以改进推理和决策的方法。最后，我们概述了未来的研究方向，以应对这些挑战并推进该领域。

Jun, 2024

大型多模态代理：综述

大型语言模型在多媒体领域的研究和发展方向的全面回顾，介绍了大型多媒体代理的开发要素和分类，评估方法的编制以及未来研究方向的提出。

Feb, 2024

面向语言的通信：文本到图像生成的语义编码和知识蒸馏

将大型语言模型和生成模型整合到新兴的语义交流模式中，我们提出了一种新的面向语言的语义交流框架（LSC）。在 LSC 中，机器使用人类语言消息进行交流，可以通过自然语言处理技术进行解释和操作以提高语义交流效率。通过引入三种创新算法：1）语义源编码（SSC）将文本提示压缩为捕捉提示的句法本质的关键词，同时保持它们的出现顺序以保持提示的上下文；2）语义通道编码（SCC）通过用更长的同义词替换关键词来提高对错误的鲁棒性；3）语义知识蒸馏（SKD）通过在上下文中学习听者的语言风格生成定制的提示。在一项渐进文本到图像生成的通信任务中，所提出的方法在减少传输次数的同时实现更高的感知相似度，并提高在嘈杂的通信信道中的鲁棒性。

Sep, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

推进生成人工智能：科学教育中多模态大语言模型的变革性作用

通过呈现示例创新的学习场景，探索了多模态大语言模型 (MLLMs) 在科学教育的核心方面的转变作用，包括文本创作、个性化学习支持、培养科学实践能力以及提供评估和反馈。同时，强调了在实施 MLLMs 时采取平衡的方法的必要性，确保技术对教育者角色的补充，以确保人工智能在科学教育中的有效和道德使用。

Jan, 2024

LLMs 满足多模态生成和编辑的综述

多模态生成技术的调查，介绍了不同领域中的重要进展，包括图像、视频、3D 和音频，研究了方法和数据集，还提出了使用现有生成模型进行人机交互的工具增强型多模态代理，同时探讨了人工智能安全问题和新兴应用及未来前景。

May, 2024

基于大型语言模型增强的 6G 通信多智能体系统

利用大型语言模型（LLM）结合多智能体系统和自然语言输入，解决 6G 通信中的任务需求、通信知识获取和相关问题的评估与改进。

Dec, 2023