May, 2024

C3LLM: 使用大型语言模型的条件多模式内容生成

TL;DR我们介绍了 C3LLM(Conditioned-on-Three-Modalities Large Language Models),它是一个新颖的框架,将视频到音频、音频到文本和文本到音频三个任务结合在一起。C3LLM 以大型语言模型(LLM)结构为基础,作为不同模态对齐、综合给定条件信息并以离散方式进行多模态生成的桥梁。我们的贡献如下:首先,我们使用预训练音频码本为音频生成任务自适应了分层结构。具体而言,我们训练 LLM 从给定条件生成音频语义标记,并进一步使用非自回归变压器在层级中生成不同级别的声学标记以增强生成音频的保真度。其次,基于 LLM 最初设计用于具有下一个词预测方法的离散任务的直觉,我们使用离散表示进行音频生成,并将其语义含义压缩为声学标记,类似于向 LLM 添加 “声学词汇”。第三,我们的方法将以前的音频理解、视频到音频生成和文本到音频生成任务结合到一个统一的模型中,以端到端的方式提供更多的灵活性。我们的 C3LLM 通过各种自动化评估指标实现了改进的结果,与以前的方法相比,提供了更好的语义对齐。