重访唱歌声音检测：定量回顾与未来展望

Jun, 2018

重访唱歌声音检测：定量回顾与未来展望

Revisiting Singing Voice Detection: a Quantitative Review and the Future Outlook

Kyungyun Lee, Keunwoo Choi, Juhan Nam

TL;DR该论文对三个现有歌声识别系统进行了误差分析，并设计了新的测试方法来进一步检查存在于当前数据集中尚未清楚揭示的缺陷，最终以实验结果为基础提出了构建更为稳健的歌声识别系统的方向。

Abstract

Since the vocal component plays a crucial role in popular music, singing voice detection has been an active research topic in music information retrieval. Although several proposed algorithms have shown high performances, we argue that there still is a room to improve to build a more robust singing voice detection system. In order to identify the area of imp

singing voice detection music information retrieval algorithm error analysis robust detection system

发现论文，激发创造

言不足以表达：歌唱语音识别中的进展与挑战

本文旨在探讨歌唱领域中的语音识别挑战和进展，包括音高变化、各种歌唱风格和背景音乐干扰等唱歌所特有的挑战。我们研究了音素识别、歌曲中的语言识别、关键词检测和完整歌词转写等关键领域。通过描述作者在这些任务刚开始崭露头角的研究经历，同时还介绍了近期深度学习和大规模数据集方面的新进展如何推动了该领域的进步。本文的目标是阐明将语音识别技术应用于歌唱中的复杂性，评估当前的能力，并提出未来的研究方向。

Mar, 2024

联合检测和分离歌声：一种多任务方法

本文探讨了利用多任务学习中的歌声活动检测作为额外任务来稳定和提高语音分离性能的方法，并提出了对于每个数据集特定的问题偏差的解决方法，最终实验表明与单任务相比，该方法在分离和歌声检测方面均有较大改进。

Apr, 2018

关于训练数据的歌声分离研究

本研究探讨了训练数据集的特征对半监督唱声分离系统性能的影响和数据增强方法。结果表明，训练数据集的分离质量和多样性是性能的关键因素。

Jun, 2019

深度学习在歌唱处理中的应用：成就、挑战及对歌手和听众的影响

本文概述了利用最先进的深度学习技术处理歌唱任务的最新进展，讨论了它们在精度和音质方面的成就以及目前面临的挑战，如可用数据和计算资源的情况，同时探讨了当这些进展应用于商业应用时对听众和歌手的影响。

Jul, 2018

越南流行音乐歌手声音分类的深度学习方法

本文提出了一种基于分析越南流行音乐的新方法来识别歌手姓名的方法，并采用声音分段检测和唱声分离作为预处理步骤，利用 Mel 频率倒谱系数提取输入特征来构建歌手分类器，最终在一个包含 18 位著名歌手的 300 首越南歌曲的数据集上获得了 92.84% 的准确率，是相同数据集上其他方法中最佳的结果。

Feb, 2021

SingFake: 唱歌声深度伪造检测

提出了歌声深度伪造检测任务，创建了第一个真实数据集 SingFake，包含 40 位歌手 5 种语言的 28.93 小时真实歌曲和 29.40 小时深度伪造歌曲片段，评估了四个最先进的口语对抗系统，发现在 SingFake 上训练相对于在口语测试数据上训练有显著改进，但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。

Sep, 2023

基于频谱图的自动调谐声音在音乐录音中的检测

该研究介绍了一种基于三元组网络的数据驱动方法，用于检测 Auto-Tune 音乐的自动调音效果，通过创建一个由原始和自动调音音频剪辑组成的数据集。实验结果表明，与针对其他音频取证任务广泛使用的端到端模型 Rawnet2 相比，提出的方法在准确性和鲁棒性上均具有优势。

Mar, 2024

利用预训练的自监督前端实现自动唱歌声音理解任务：三个案例研究

本文探讨了无监督自学习模型在歌唱声音识别中的有效性和表现，并对其实验结果和行为进行了分析。

Jun, 2023

SVDD 挑战 2024：唱歌声深度伪造检测挑战 - 评估计划

AI 生成的歌唱声音的快速发展引起了艺术家和音乐行业的高度关注，基于音乐性质和强烈背景音乐的唱歌声音的深度伪造检测（SVDD）是一个需要专注的专业领域。为推动 SVDD 研究，我们最近提出了 “SVDD 挑战”，这是第一个侧重于实验室控制和真实场景下真实和深度伪造歌唱声音录制的研究挑战。该挑战将与 2024 年 IEEE 口语语言技术研讨会（SLT 2024）同时举行。

May, 2024

语音障碍分析：基于 Transformer 的方法

声音障碍是显著影响患者生活质量的病理状态。然而，由于病理性声音数据短缺以及用于诊断的录音类型的多样性，对这些病理状态的非侵入性自动诊断仍未得到充分探索。本文提出了一种新颖的解决方案，直接采用在原始声音信号上工作的变压器，并通过合成数据生成和数据增强来解决数据短缺的问题。此外，我们同时考虑了多种录音类型，如句子朗读和持续元音发音，通过采用多模态专家集合来对不同数据类型上的预测进行对齐。在公共和私有数据集上获得的实验结果显示了我们解决方案在障碍检测和分类任务中的有效性，并在现有方法上有了很大的改进。

Jun, 2024