LyricSIM:西班牙歌词相似性检测的新数据集与基准
本文介绍了一个计算框架,旨在定量评估可唱译歌词,该框架无缝地融合了歌曲、语言和文化维度;通过收集一个可唱歌词数据集,并进行可唱和不可唱歌词的比较分析,我们验证了我们框架的有效性;我们的多学科方法揭示了歌曲翻译艺术的关键因素,并为未来的计算歌词翻译评估奠定了坚实基础。
Aug, 2023
比较分析了计算模型和人类感知中的歌词相似性,发现基于预训练 BERT 模型嵌入、歌曲音频和音素特征的计算模型能够准确表示感知中的歌词相似性,这一发现为相似性推荐系统的发展提供了伪标签和客观评估指标。
Apr, 2024
本文介绍了一个基于 NLP 资源的语义相似性数据集,用于填补心理语言学研究中的空白,并通过提供大量受词汇处理中起重要作用的变量控制的名词对的语义相似性的各种量化方式。
Apr, 2023
介绍了一个新颖的可唱歌曲翻译数据集,其中 89% 为 K-pop 歌词,并利用该数据集揭示了 K-pop 歌词翻译的独特特点及构建了神经歌词翻译模型,强调了为可唱歌曲翻译专门开发数据集的重要性。
Sep, 2023
我们提供了两个新颖的数据集 (ViCon 和 ViSim-400) 来评估越南语这种低资源语言的语义相似性模型,其中 ViCon 包括了各种词类中的同义词和反义词对,ViSim-400 则提供了人工评定的五种语义关系的相似程度,这两个数据集经过标准的共现和神经网络模型验证,显示出与相应英文数据集相媲美的结果。
Apr, 2018
本文介绍了一个基于模拟瑞尔兹(SimRelUz)数据集的语义模型评估数据集,用于评估语义模型的鲁棒性和低资源语言的语义关系。
May, 2022
使用基于语法、字典、上下文和机器翻译的多种方法,并采用无监督和有监督的方式组合,我们的最佳运行在 SemEval-2017 的 STS Track4a 中排名第一,与人类注释的相关性达到 83.02%。
Apr, 2017
我们介绍了 “歌曲描述者数据集 (SDD)”,这是一个新的众包语料库,用于评估音乐和语言模型。该数据集包含 1.1k 个人工编写的自然语言描述和 706 个音乐录音的对应,全部都是公开可访问的,且都在创作共用许可证下发布。为了展示我们数据集的用途,我们在三个关键的音乐和语言任务上对一些热门模型进行了基准测试(音乐字幕生成、文本到音乐生成和音乐语言检索)。我们的实验强调了跨数据集评估的重要性,并提供了研究人员如何利用 SDD 来获得更全面的模型性能理解的见解。
Nov, 2023
SongComposer 是一种创新的基于 LLM 的歌曲作曲技术,通过利用 LLM 的能力来理解和生成具有象征性歌曲表示的旋律和歌词,通过符号化歌曲表示的方式,使 LLM 能够像人类一样明确地作曲,通过 SongCompose-PT 预训练数据集的收集和充分的预训练,SongComposer 在歌词到旋律生成、旋律到歌词生成、歌曲延续和文本到歌曲创作等领域展现出优越的性能。
Feb, 2024
理解新闻文章的写作框架对解决社会问题至关重要,因此引起了通信研究领域的显着关注。我们介绍了一个扩展版的大型标记新闻文章数据集,包含 16,687 个新标记的配对。通过对新闻文章进行成对比较,我们的方法解放了传统新闻框架分析研究中手动识别框架类别的工作。该新闻文章相似性数据集是迄今为止最广泛的跨语言新闻文章数据集,涵盖 10 种语言、26,555 个标记的新闻文章配对。每个数据点根据详细的代码手册进行了细致的注释,采用人在循环框架下进行。应用示例展示了它在揭示全球新闻报道中的国家社群、揭示新闻媒体偏见以及定量化与新闻创作相关因素方面的潜力。我们预计这个新闻相似性数据集将扩宽我们对媒体生态系统的认识,包括对事件和观点在国家、地点、语言和其他社会构建中的新闻报道。通过这样做,它可以推动社会科学研究和应用方法的进步,对我们的社会产生深远影响。
May, 2024