利用人工智能物联网和边缘计算技术,提出了一个鼓机器人系统,可以实时完成音乐转录并通过轻量级卷积神经网络模型进行分析,以实现更高效的终端设备上的快速边缘计算和更多智能应用和服务。
Aug, 2023
DrummerNet 是一种无监督学习的鼓乐转录系统,无需基准转录,利用深度神经网络的数据可扩展性从大规模未标记的数据集中进行学习,该方法通过学习使音频信号的距离最小化,从而完成无需基准转录的转录任务。实验表明,与许多其他最近的有监督和无监督的鼓乐转录系统相比,DrummerNet 表现良好。
Jun, 2019
提出了一种新型的多轨音乐表示方式,可以同时包含多种不同类型的乐器,并实现了基于音乐自注意力的实时即兴演奏,该方法在速度和内存占用方面都具有优势。
Jul, 2022
本研究提出使用深度模型进行跨领域的知识迁移,将大规模预训练的语言模型应用于鼓演奏的 MIDI 文件生成。研究表明,GPT3 模型能够生成相对合理的鼓声,但使用其他没有预训练的模型却无法实现。同时,作者还提出了定制结构评估方法,以比较生成的音乐与专业音乐家演奏的音乐,并揭示了此种方法的优缺点。该研究表明,使用大型语言模型进行跨领域迁移学习具有应用前景。
Jan, 2023
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
我们提出了一种具有注意机制的预测性循环神经网络,可以对感知输入进行加权,区分每种模态的重要性和可靠性,实现快速高效的感知和动作生成,通过学习示范训练后,机器人可以获得类似人类的技能,验证了这种技术在烹饪未知食材的鸡蛋过程中的可行性。
Sep, 2023
通过研究训练数据的角度,本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术,获得了 MAPS 数据集的最新音符起始准确性,而无需查看其他的训练数据。
Feb, 2024
本文提出了一种启发于人类认知结构的新型机器人运动生成模型,其中包含了一个状态驱动的主动自上而下的视觉关注模块,该模块能够基于任务状态主动改变目标,并在机器人使用工具任务中对机器人的夹持器和工具进行感知,这类似于生物现象 - 工具身体同化。结果表明,该模型的视觉感知具有更好的灵活性。
Jun, 2022
通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系,我们改进了 Bahdanau 等人(2014)的注意力模型,并且我们的参数化注意力模型的实验表明其可以提高翻译质量。
Jul, 2016
利用 Transformer 网络为物联网应用中的自动调制识别提出了一种高效的方法,优于传统深度学习技术,实现了最高的识别准确度。
Mar, 2024