LyricSIM：西班牙歌词相似性检测的新数据集与基准

Jun, 2023

LyricSIM：西班牙歌词相似性检测的新数据集与基准

LyricSIM: A novel Dataset and Benchmark for Similarity Detection in Spanish Song LyricS

PDF

Alejandro Benito-Santos, Adrián Ghajari, Pedro Hernández, Víctor Fresno, Salvador Ros...

TL;DR本文介绍了一个用于歌词语义相似度任务的新数据集和基准。通过一项集体注释实验，我们获得了 676 个高质量的注释对，并评估了各种最先进的单语和多语言语言模型的性能，以建立未来学术和工业应用的基准结果。

Abstract

In this paper, we present a new dataset and benchmark tailored to the task of semantic similarity in song lyrics. Our →

发现论文，激发创造

可演唱歌词翻译的计算评估框架

本文介绍了一个计算框架，旨在定量评估可唱译歌词，该框架无缝地融合了歌曲、语言和文化维度；通过收集一个可唱歌词数据集，并进行可唱和不可唱歌词的比较分析，我们验证了我们框架的有效性；我们的多学科方法揭示了歌曲翻译艺术的关键因素，并为未来的计算歌词翻译评估奠定了坚实基础。

Aug, 2023

歌词相似性感知的计算分析

比较分析了计算模型和人类感知中的歌词相似性，发现基于预训练 BERT 模型嵌入、歌曲音频和音素特征的计算模型能够准确表示感知中的歌词相似性，这一发现为相似性推荐系统的发展提供了伪标签和客观评估指标。

Apr, 2024

自然语言处理和心语言学的桥梁：计算基础的巴斯克语和西班牙语语义相似性和关联数据集

本文介绍了一个基于 NLP 资源的语义相似性数据集，用于填补心理语言学研究中的空白，并通过提供大量受词汇处理中起重要作用的变量控制的名词对的语义相似性的各种量化方式。

Apr, 2023

韩流歌词翻译：数据集、分析和神经建模

介绍了一个新颖的可唱歌曲翻译数据集，其中 89% 为 K-pop 歌词，并利用该数据集揭示了 K-pop 歌词翻译的独特特点及构建了神经歌词翻译模型，强调了为可唱歌曲翻译专门开发数据集的重要性。

Sep, 2023

介绍两个用于评估（不）相似性和相关度语义模型的越南语数据集

我们提供了两个新颖的数据集 (ViCon 和 ViSim-400) 来评估越南语这种低资源语言的语义相似性模型，其中 ViCon 包括了各种词类中的同义词和反义词对，ViSim-400 则提供了人工评定的五种语义关系的相似程度，这两个数据集经过标准的共现和神经网络模型验证，显示出与相应英文数据集相媲美的结果。

Apr, 2018

SimRelUz：一份用于乌兹别克语语义评估的相似度和相关性评分数据集

本文介绍了一个基于模拟瑞尔兹（SimRelUz）数据集的语义模型评估数据集，用于评估语义模型的鲁棒性和低资源语言的语义关系。

May, 2022

SemEval-2017 任务 1 中的 CompiLIG: 用于语义文本相似性的跨语言抄袭检测方法

使用基于语法、字典、上下文和机器翻译的多种方法，并采用无监督和有监督的方式组合，我们的最佳运行在 SemEval-2017 的 STS Track4a 中排名第一，与人类注释的相关性达到 83.02%。

Apr, 2017

歌曲描述数据集：用于音乐与语言评估的音频标题语料库

我们介绍了 “歌曲描述者数据集 (SDD)”，这是一个新的众包语料库，用于评估音乐和语言模型。该数据集包含 1.1k 个人工编写的自然语言描述和 706 个音乐录音的对应，全部都是公开可访问的，且都在创作共用许可证下发布。为了展示我们数据集的用途，我们在三个关键的音乐和语言任务上对一些热门模型进行了基准测试（音乐字幕生成、文本到音乐生成和音乐语言检索）。我们的实验强调了跨数据集评估的重要性，并提供了研究人员如何利用 SDD 来获得更全面的模型性能理解的见解。

Nov, 2023

SongComposer: 歌曲生成中用于歌词和旋律创作的大型语言模型

SongComposer 是一种创新的基于 LLM 的歌曲作曲技术，通过利用 LLM 的能力来理解和生成具有象征性歌曲表示的旋律和歌词，通过符号化歌曲表示的方式，使 LLM 能够像人类一样明确地作曲，通过 SongCompose-PT 预训练数据集的收集和充分的预训练，SongComposer 在歌词到旋律生成、旋律到歌词生成、歌曲延续和文本到歌曲创作等领域展现出优越的性能。

Feb, 2024

新闻文章框架的多语言相似度数据集

理解新闻文章的写作框架对解决社会问题至关重要，因此引起了通信研究领域的显着关注。我们介绍了一个扩展版的大型标记新闻文章数据集，包含 16,687 个新标记的配对。通过对新闻文章进行成对比较，我们的方法解放了传统新闻框架分析研究中手动识别框架类别的工作。该新闻文章相似性数据集是迄今为止最广泛的跨语言新闻文章数据集，涵盖 10 种语言、26,555 个标记的新闻文章配对。每个数据点根据详细的代码手册进行了细致的注释，采用人在循环框架下进行。应用示例展示了它在揭示全球新闻报道中的国家社群、揭示新闻媒体偏见以及定量化与新闻创作相关因素方面的潜力。我们预计这个新闻相似性数据集将扩宽我们对媒体生态系统的认识，包括对事件和观点在国家、地点、语言和其他社会构建中的新闻报道。通过这样做，它可以推动社会科学研究和应用方法的进步，对我们的社会产生深远影响。

May, 2024