C3LLM: 使用大型语言模型的条件多模式内容生成

May, 2024

C3LLM: 使用大型语言模型的条件多模式内容生成

C3LLM: Conditional Multimodal Content Generation Using Large Language Models

Zixuan Wang, Qinkai Duan, Yu-Wing Tai, Chi-Keung Tang

TL;DR我们介绍了 C3LLM（Conditioned-on-Three-Modalities Large Language Models），它是一个新颖的框架，将视频到音频、音频到文本和文本到音频三个任务结合在一起。C3LLM 以大型语言模型（LLM）结构为基础，作为不同模态对齐、综合给定条件信息并以离散方式进行多模态生成的桥梁。我们的贡献如下：首先，我们使用预训练音频码本为音频生成任务自适应了分层结构。具体而言，我们训练 LLM 从给定条件生成音频语义标记，并进一步使用非自回归变压器在层级中生成不同级别的声学标记以增强生成音频的保真度。其次，基于 LLM 最初设计用于具有下一个词预测方法的离散任务的直觉，我们使用离散表示进行音频生成，并将其语义含义压缩为声学标记，类似于向 LLM 添加 “声学词汇”。第三，我们的方法将以前的音频理解、视频到音频生成和文本到音频生成任务结合到一个统一的模型中，以端到端的方式提供更多的灵活性。我们的 C3LLM 通过各种自动化评估指标实现了改进的结果，与以前的方法相比，提供了更好的语义对齐。

Abstract

We introduce c3llm (Conditioned-on-Three-Modalities Large language models), a novel framework combining three tasks of video-to-audio, audio-to-text, and text-to-audio together. →

c3llm multimodal generation audio generation language models semantic alignment

发现论文，激发创造

LLMs 满足多模态生成和编辑的综述

多模态生成技术的调查，介绍了不同领域中的重要进展，包括图像、视频、3D 和音频，研究了方法和数据集，还提出了使用现有生成模型进行人机交互的工具增强型多模态代理，同时探讨了人工智能安全问题和新兴应用及未来前景。

May, 2024

音视频 LLM 用于视频理解

该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。

Dec, 2023

CMMD：视频 - 音频条件建模的对比多模态扩散

我们介绍了一种多模态扩散模型，专为视频和音频的双向条件生成而设计。通过引入联合对比训练损失来增强视听事件的同步，我们认识到在多模态生成任务中准确对齐视频和音频事件的重要性。我们的研究方法包括对多个数据集进行全面实验，以全面评估我们所提出的模型的有效性。从各个角度进行了生成质量和对齐性能的评估，包括客观和主观指标。我们的研究结果表明，所提出的模型优于基线，证实了它的有效性和效率。特别地，对比损失的引入改善了音视频对齐，特别是在高相关性的视频到音频生成任务中。这些结果表明我们所提出的模型具有改善多模态生成的质量和对齐性的潜力，从而促进了视频和音频条件生成系统的发展。

Dec, 2023

大型 AI 模型赋能的多模态语义通信

利用大型人工智能模型构建的大规模多模态语义通信（LAM-MSC）框架，通过多模态对齐、个性化语言模型和信道状态估计相结合来解决多模态语义通信中的数据异构性、语义歧义和信号衰落等挑战，并通过模拟实验验证了该框架的卓越性能。

Sep, 2023

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

C3Net：复合条件控制网络用于多模态内容生成

我们提出了 Compound Conditioned ControlNet（C3Net），这是一种新颖的生成神经架构，它从多种模态中获取条件并同时合成多模态内容（例如图像、文本、音频）。C3Net 将 ControlNet 架构适应到一个可生产的扩散模型及其可训练副本上。使用基于对比训练的模态特定编码器，C3Net 首先将多模态条件对齐到相同的语义潜空间，然后基于对齐的潜空间生成多模态输出，其语义信息使用称为 Control C3-UNet 的 ControlNet 类似架构进行组合。我们的模型通过学习和解释多模态条件而不仅仅在潜空间上进行线性插值，从而提供了一种改进的联合模态生成解决方案。此外，由于我们将条件对齐到统一的潜空间，C3Net 只需要一个可训练的 Control C3-UNet 来处理多模态语义信息。我们的模型在条件对齐阶段进行了单模态预训练，在相对稀缺的训练数据上优于未经预训练的对齐，从而展现了高质量的复合条件生成能力。我们提供了第一个高质量的三模态验证集，可定量验证 C3Net 在多模态生成方面优于或与最先进的方法相媲美。我们将发布我们的代码和三模态数据集。

Nov, 2023

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

Video-LLaMA 是一种多模态框架，通过将预训练的视觉和音频编码器与预训练的大型语言模型结合，实现对视频内容的理解，具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势，因此被视为具有潜力的音视频 AI 助手原型。

Jun, 2023

CM3: 互联网因果蒙特卡罗多模态模型

介绍了 CM3 模型，是一种因果掩模生成模型，用于训练多模态文件的大型语料库，可生成结构化文本或图像，支持双向上下文依赖，具有接近最先进性能的能力，能够通过单个模型完成零 - shot 任务的多模态生成、文本摘要、实体链接、实体消岐等。

Jan, 2022

AudioLM：一种语言建模方法用于音频生成

AudioLM 是一个高质量的音频生成框架，它通过将输入音频映射为离散令牌序列，并在该表示空间中将音频生成视为一种语言建模任务。我们提出了一种混合标记方案，以实现重建质量和长期结构两个目标，并通过大量的音频波形语料库进行了训练，使其可以生成自然，连贯的音频持续时间。不需要文件、笔录或注释，同时对未见过的讲话者也可以维持其语法和语义合理的音频持续时间。此外，我们还展示了如何通过生成连贯的钢琴音乐持续时间，超越了语音。

Sep, 2022