MidiCaps -- 一个带有文本说明的大规模 MIDI 数据集
该研究创建了一个新的数据集 TextCaps,涉及 28k 张图片和 145k 个标题,用于挑战计算机视觉模型识别图像中的文本,与视觉环境进行关联,并决定要复制或释义文本的哪个部分。研究表明,这个新的数据集提供了许多前所未有的技术挑战。
Mar, 2020
我们提出了一个新的大规模情感标记的符号音乐数据集,该数据集包括 12k 首 MIDI 音乐。通过在 GoEmotions 数据集上训练情感分类模型,我们实现了半基线模型大小的先进结果。然后,我们将这些模型应用到两个大规模 MIDI 数据集的歌词上。我们的数据集涵盖了广泛的细粒度情感,为探究音乐与情感之间的联系以及基于特定情感生成音乐的模型的发展提供了宝贵的资源。我们的推断代码、训练模型和数据集在网上可获得。
Jul, 2023
我们介绍了 “歌曲描述者数据集 (SDD)”,这是一个新的众包语料库,用于评估音乐和语言模型。该数据集包含 1.1k 个人工编写的自然语言描述和 706 个音乐录音的对应,全部都是公开可访问的,且都在创作共用许可证下发布。为了展示我们数据集的用途,我们在三个关键的音乐和语言任务上对一些热门模型进行了基准测试(音乐字幕生成、文本到音乐生成和音乐语言检索)。我们的实验强调了跨数据集评估的重要性,并提供了研究人员如何利用 SDD 来获得更全面的模型性能理解的见解。
Nov, 2023
该研究介绍了一个新的数据集 MemeCap 及可视化模型综合能力的实验,验证了 VL 模型在理解 meme 中的视觉隐喻方面存在的问题。
May, 2023
本文创建了一个具有 38700838 个音符和 10855 个独奏钢琴作品的 GiantMIDI-Piano dataset,使用卷积神经网络探测独奏钢琴作品,并使用高分辨率钢琴转录系统将这些作品转录为 MIDI 文件,可用于音乐信息检索和音乐分析。
Oct, 2020
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。
Jul, 2023
本文介绍了 WavCaps 音频字幕数据集的构建方法,结合 ChatGPT 模型处理嘈杂的原始描述,最终得到了一个高质量的数据集。该数据集应用在多个音频 - 语言多模态学习任务中,取得了较大的进展。
Mar, 2023
MusiLingo 是一个创新系统,通过使用单个投射层将来自预训练的冻结音乐音频模型 MERT 和冻结的 LLaMA 语言模型中的音乐表示对齐,弥合了音乐音频和文本环境之间的差距,从而在音乐字幕生成和音乐相关的查询响应中展现了竞争性能。
Sep, 2023
通过使用遥感图像领域的 RSICD 数据集中提供的字幕,本文旨在解决字幕数据集中可能存在的信息和沟通缺陷问题,并通过进行 ChatGPT 语法纠正来增加字幕模型的性能准确性。
Dec, 2023
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。
Sep, 2023