自动歌词与音频对齐的声学建模

Jun, 2019

Acoustic Modeling for Automatic Lyrics-to-Audio Alignment

Chitralekha Gupta, Emre Yılmaz, Haizhou Li

TL;DR该研究提出使用额外的语音和音乐相关特征，通过对大量独唱人声进行训练的声学模型来适应少量领域数据中的复调音乐，并利用常规声学特征一起实现鲁棒性，该策略在词汇边界对准错误的显著降低中取得了成效，特别是在具有长时间音乐插曲的复调数据上。

Abstract

Automatic lyrics to polyphonic audio alignment is a challenging task not only because the vocals are corrupted by background music, but al

lyrics polyphonic audio acoustic models alignment music-informed features

发现论文，激发创造

使用色度和语音特征的古典声乐演唱实时歌词对齐系统

本文提出了一个用于古典声乐演出的实时歌词对齐系统，通过改进歌词对齐算法，找到了优化的色谱图和音素后验图的组合，分别捕捉歌声的旋律和语音特征，并将包含多个演出版本的 Schubert Winterreise 数据集重新塑造为实时歌词对齐的评估集。

Jan, 2024

针对流派的声学模型用于多声部音乐自动歌词转录

本文提出了一种新颖的基于音乐类型的网络，仅需要轻量级的音乐类型特定参数进行训练，具有较好的歌词转录性能。

Apr, 2022

基于对比学习的多语言音频与歌词对齐

本文介绍了一种新颖的歌词对齐系统，使用对抗学习导出跨模态嵌入，不仅训练简单、能使用弱标注数据、学习强大的文本模型，而且可用于多语言和获得了标准数据集下平均绝对误差小于 0.2 秒的最佳结果。

Jun, 2023

SongMASS：基于预训练和对齐约束的自动作曲

本文提出了 SongMASS 方法来解决自动生成歌曲时歌词到旋律生成和旋律到歌词生成所面临的限制问题，使用基于掩蔽序列到序列预训练和基于注意力的对齐建模，表现出明显优于基线方法的歌词和旋律生成质量。

Dec, 2020

音频与谱对准的混合方法

使用神经网络作为 Dynamic Time Warping (DTW) 方法的预处理步骤，可以生成鲁棒的、适应性强的自动音乐配准。

Jul, 2020

声学特征融合用于平衡多方面发音评估

本文提出了两种声学特征混合策略，线性和非线性插值与批次平均特征相结合，以解决非母语学习者语音数据稀缺和得分标签不平衡的问题。通过将发音准确性作为声学特征，我们改进了设计以适应发音评估，同时结合细粒度的错误率特征，通过将语音识别结果与原始答案音素进行比较，直接提供发音错误的提示。声学特征的有效混合显著提高了 speechocean762 数据集上的整体评分性能，详细分析突显了我们预测未见扭曲的潜力。

Jun, 2024

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

歌曲中的美感翻译：联合学习调整旋律与翻译歌词

本文提出了一种新颖的编码器 - 解码器框架 ——Lyrics-Melody Translation with Adaptive Grouping (LTAG)，通过自适应音符分组模块，可以同时翻译源歌词并确定每个解码步骤中对齐音符的数量，通过注释数据和后翻译使用大量的增广数据，实现了自动歌曲翻译的完整解决方案，并在英汉歌曲翻译数据集上进行实验，结果表明模型在自动和人类评估中均有效。

Mar, 2023

无监督的旋律引导歌词生成

本文提出了一种基于分层框架和旋律 - 歌词对齐的歌词生成模型，能够在没有旋律 - 歌词对齐数据的情况下，通过对内容进行控制生成更可唱、更易懂、更连贯和有韵律的高质量歌词。

May, 2023

无监督跨域歌声转换

本文提出了一种无需手动监督的端对端 wav 到 wav 生成模型，用于实现任意身份的歌声转换，该模型利用音响模型和提取的旋律特征来驱动基于波形的生成器，经实验证明，在音频质量方面表现显著优于基线方法。

Aug, 2020