基于 AIoT 的鼓转录机器人使用卷积神经网络

Aug, 2023

基于 AIoT 的鼓转录机器人使用卷积神经网络

AIoT-Based Drum Transcription Robot using Convolutional Neural Networks

Yukun Su, Yi Yang

TL;DR利用人工智能物联网和边缘计算技术，提出了一个鼓机器人系统，可以实时完成音乐转录并通过轻量级卷积神经网络模型进行分析，以实现更高效的终端设备上的快速边缘计算和更多智能应用和服务。

Abstract

With the development of information technology, robot technology has made great progress in various fields. These new technologies enable robots to be used in industry, agriculture, education and other aspects. In this paper, we propose a →

robot technology drum robot music transcription aiot convolutional neural network

发现论文，激发创造

通过注意力变换网络改进打击乐机器人

该论文介绍了一种改进的敲鼓机器人，它能够基于注意力机制和流行视觉转换网络，自动完成音乐转录，并能有效处理音频嵌入输入的全局长程依赖关系，实验证明改进算法提高了机器人的敲鼓分类性能，为机器人提供了各种智能应用和服务。

Oct, 2023

深度无监督鼓转录

DrummerNet 是一种无监督学习的鼓乐转录系统，无需基准转录，利用深度神经网络的数据可扩展性从大规模未标记的数据集中进行学习，该方法通过学习使音频信号的距离最小化，从而完成无需基准转录的转录任务。实验表明，与许多其他最近的有监督和无监督的鼓乐转录系统相比，DrummerNet 表现良好。

Jun, 2019

使用卷积神经网络自动识别多音乐器中的乐器

本文介绍了利用卷积神经网络进行自动乐器识别的应用。在这个模型中，特征提取和学习算法是通过端到端方式一起训练的。通过基于原始音频训练的卷积神经网络所取得的结果表明，其性能优于那些依赖手工制作特征的传统方法。

Nov, 2015

音乐椅子：基于协作物联网设备的高效实时识别

本文介绍了一种名为 “音乐椅” 的分布式方法，通过数据并行和模型并行解决了物联网中资源受限设备处理实时数据的挑战，并在网络内部收集从输入传感器中获取的计算能力，以实现高效、本地化和动态的实时识别，相比较于 Tegra TX2，该系统不仅达到了类似的能量消耗，而且还取得了更好的性能。

Feb, 2018

基于神经自回归模型的高效实时钢琴转录

通过改进神经网络设计和模型大小，实现实时推断的钢琴转录模型，与现有最先进模型在音符精确度上相媲美并具有高性能及轻量级特点。

Apr, 2024

语言模型是鼓手：使用自然语言预训练进行鼓乐合成

本研究提出使用深度模型进行跨领域的知识迁移，将大规模预训练的语言模型应用于鼓演奏的 MIDI 文件生成。研究表明，GPT3 模型能够生成相对合理的鼓声，但使用其他没有预训练的模型却无法实现。同时，作者还提出了定制结构评估方法，以比较生成的音乐与专业音乐家演奏的音乐，并揭示了此种方法的优缺点。该研究表明，使用大型语言模型进行跨领域迁移学习具有应用前景。

Jan, 2023

通过深度学习从任意语言提示生成鼓律场景

本文介绍了一种新的基于语言提示生成音乐鼓点的方法，同时开发了提取歌曲鼓点的新方法，这为计算机辅助音乐制作提供了可能，并为更全面的节奏生成提供了基础。

Sep, 2022

基于数据驱动的鲁棒自动钢琴转录分析

通过研究训练数据的角度，本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术，获得了 MAPS 数据集的最新音符起始准确性，而无需查看其他的训练数据。

Feb, 2024

增强音乐创作者创造力的交互式旋律生成系统

通过整合多个 RNN 模型，本研究提出了一个系统，旨在协同人类进行音乐创作，使创作过程更具多样性，通过根据反馈动态调整用户创意意图，系统增强了生成符合用户偏好和创意需求的旋律的能力，通过对具有不同背景的作曲家的实验验证了系统的有效性，进一步完善了音乐创作的可能性，突显了作曲家与人工智能的互动在使音乐创作更加个性化和易于接触方面的重要性，这个系统代表了将人工智能整合到创作过程中的一步，提供了一个新的音乐创作支持和协同艺术探索的工具。

Mar, 2024

使用深度学习进行音乐转录建模和创作

本文采用深度学习方法，具体来说是 LSTM 网络，用于音乐转录建模和创作，使用大约 23,000 个高级词汇（ABC 符号）表示的音乐转录来构建和训练 LSTM 网络，并用其生成新的转录。实际目的是在特定的音乐创作情境中创建有用的音乐转录模型，我们从三个方面展示了结果：1）在种群水平上，比较训练转录和生成转录集的描述性统计数据；2）在个体水平上，研究生成的转录如何反映训练转录中音乐实践的惯例（凯尔特民间音乐）；3）在应用级别上，使用该系统进行音乐创作的创意生成。我们开放和提供了我们的数据集、软件和声音示例：https://github.com/IraKorshunova/folk-rnn。

Apr, 2016