本文提出了一个用于古典声乐演出的实时歌词对齐系统,通过改进歌词对齐算法,找到了优化的色谱图和音素后验图的组合,分别捕捉歌声的旋律和语音特征,并将包含多个演出版本的 Schubert Winterreise 数据集重新塑造为实时歌词对齐的评估集。
Jan, 2024
本文提出了一种新颖的基于音乐类型的网络,仅需要轻量级的音乐类型特定参数进行训练,具有较好的歌词转录性能。
Apr, 2022
本文介绍了一种新颖的歌词对齐系统,使用对抗学习导出跨模态嵌入,不仅训练简单、能使用弱标注数据、学习强大的文本模型,而且可用于多语言和获得了标准数据集下平均绝对误差小于 0.2 秒的最佳结果。
Jun, 2023
本文提出了 SongMASS 方法来解决自动生成歌曲时歌词到旋律生成和旋律到歌词生成所面临的限制问题,使用基于掩蔽序列到序列预训练和基于注意力的对齐建模,表现出明显优于基线方法的歌词和旋律生成质量。
Dec, 2020
使用神经网络作为 Dynamic Time Warping (DTW) 方法的预处理步骤,可以生成鲁棒的、适应性强的自动音乐配准。
Jul, 2020
本文提出了两种声学特征混合策略,线性和非线性插值与批次平均特征相结合,以解决非母语学习者语音数据稀缺和得分标签不平衡的问题。通过将发音准确性作为声学特征,我们改进了设计以适应发音评估,同时结合细粒度的错误率特征,通过将语音识别结果与原始答案音素进行比较,直接提供发音错误的提示。声学特征的有效混合显著提高了 speechocean762 数据集上的整体评分性能,详细分析突显了我们预测未见扭曲的潜力。
Jun, 2024
通过对多模态数据的构建和深度学习模型的训练,本文提出了一种在音频和歌词之间学习对准关系的方法,并通过此方法优化跨模态对齐,并为音乐搜索和推荐提供了理论和实证结果。
Dec, 2022
本文提出了一种新颖的编码器 - 解码器框架 ——Lyrics-Melody Translation with Adaptive Grouping (LTAG),通过自适应音符分组模块,可以同时翻译源歌词并确定每个解码步骤中对齐音符的数量,通过注释数据和后翻译使用大量的增广数据,实现了自动歌曲翻译的完整解决方案,并在英汉歌曲翻译数据集上进行实验,结果表明模型在自动和人类评估中均有效。
Mar, 2023
本文提出了一种基于分层框架和旋律 - 歌词对齐的歌词生成模型,能够在没有旋律 - 歌词对齐数据的情况下,通过对内容进行控制生成更可唱、更易懂、更连贯和有韵律的高质量歌词。
May, 2023
本文提出了一种无需手动监督的端对端 wav 到 wav 生成模型,用于实现任意身份的歌声转换,该模型利用音响模型和提取的旋律特征来驱动基于波形的生成器,经实验证明,在音频质量方面表现显著优于基线方法。
Aug, 2020