LaunchpadGPT：将语言模型作为音乐可视化设计师在 Launchpad 上

Jul, 2023

LaunchpadGPT：将语言模型作为音乐可视化设计师在 Launchpad 上

LaunchpadGPT: Language Model as Music Visualization Designer on Launchpad

Siting Xu, Yunlong Tang, Feng Zheng

TL;DR提出了基于语言模型的 LaunchpadGPT 模型，以音频为输入并输出如何在 Launchpad 上自动演奏和呈现音乐可视化的光效视频，该方法比随机生成的方法能够创建更好的音乐可视化效果，并具有更广泛的音乐可视化应用潜力。

Abstract

launchpad is a musical instrument that allows users to create and perform music by pressing illuminated buttons. To assist and inspire the design of the launchpad light effect, and provide a more accessible appro

launchpad music visualization launchpadgpt language model audio

发现论文，激发创造

JAMMIN-GPT: 利用 LLMs 在 Ableton Live 中进行基于文本的即兴创作

我们介绍了一个系统，允许 Ableton Live 的用户通过用音乐描述命名来创建 MIDI 片段。用户可以通过在 Ableton 的片段视图中直接输入所需的音乐内容进行作曲，然后由我们的集成系统插入。这使得用户能够保持创作过程的连续性，同时快速生成音乐创意。该系统通过提示 ChatGPT 使用一些基于文本的音乐格式（例如 ABC 符号、和弦符号或鼓谱）来回复，这是将生成式 AI 工具整合到现有音乐工作流程中的重要一步，对于喜欢通过描述性语言表达创意愿景的内容创作者可能很有价值。代码可在此 URL 中获取。

Dec, 2023

AudioGPT：理解与生成语音、音乐、声音和说话人头像

本文提出了一种名为 AudioGPT 的多模 AI 系统，该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务，以及支持口语对话的输入 / 输出接口（ASR，TTS），并通过一系列实验证明了 AudioGPT 在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。

Apr, 2023

利用 GPT-3 生成音乐解释

本文研究了 GPT-3 在通过文本解释来表达音乐决策方面的能力，结果表明 GPT-3 缺乏理解音乐决策的必要智能，解决该问题的主要障碍是缺乏艺术家创作音乐时解释过程的数据资源。

May, 2022

基于语言引导的视频音乐推荐系统

该研究提出了一种音乐推荐的方法，允许用户使用自由形式的自然语言来引导音乐选择，解决了没有音乐文本描述的挑战，并使用文本合成方法训练了新的三模态模型，该模型的检索音频可通过与视频呈现的视觉风格和语言查询中描述的音乐风格、心情或器乐匹配，以匹配两个输入模态的准确性。

Jun, 2023

语言模型是鼓手：使用自然语言预训练进行鼓乐合成

本研究提出使用深度模型进行跨领域的知识迁移，将大规模预训练的语言模型应用于鼓演奏的 MIDI 文件生成。研究表明，GPT3 模型能够生成相对合理的鼓声，但使用其他没有预训练的模型却无法实现。同时，作者还提出了定制结构评估方法，以比较生成的音乐与专业音乐家演奏的音乐，并揭示了此种方法的优缺点。该研究表明，使用大型语言模型进行跨领域迁移学习具有应用前景。

Jan, 2023

ModelGPT: 发挥 LLM 的能力进行定制模型生成

通过使用 Large Language Models (LLMs)，我们提出了 ModelGPT 框架，以满足用户的特定需求，并以更快的速度生成定制化的 AI 模型，以实现更加便利和用户友好的人工智能模型。

Feb, 2024

ChatGPT 生成视觉音效

通过利用语言模型的推理能力，本文介绍了一种生成逼真声音景观的工作流程，该工作流程不仅关注与屏幕视觉匹配的声音，还扩展到建议可能不直接可见但对于打造令人信服和沉浸式听觉环境至关重要的声音。

Nov, 2023

简单且可控的音乐生成

本文介绍了 MusicGen 这个单一语言模型，能够生成高质量的音乐样本，实现对文本描述或旋律特征的有条件创作，并经过广泛的实证评估，表明其在标准的文本到音乐基准上优于其他模型。

Jun, 2023

探索和表征用于嵌入式系统开发和调试的大型语言模型

LLMs like GPT-4 show exceptional cross-domain understanding and reasoning for embedded systems development, producing fully correct programs, functional interfaces, register-level drivers, code for LoRa communication, and context-specific power optimizations, resulting in improved productivity and success rate using an AI workflow.

Jul, 2023

莫扎特之触：基于预训练大模型的轻量级多模态音乐生成框架

AI-Generated Content (AIGC) has advanced rapidly in recent years, but research on multi-modal music generation is limited. This paper presents a framework called Mozart's Touch that can generate music aligned with cross-modal inputs. The framework consists of three main components: Multi-modal Captioning Module, Large Language Model (LLM) Understanding & Bridging Module, and Music Generation Module. Using interpretable prompts and the LLM-Bridge method, the model outperforms current state-of-the-art models according to objective and subjective evaluations.

May, 2024