揭示歌声转录中的性别公平
通过使用一个数据增强技术,我们可以减轻性别偏见问题,在语音识别系统中模拟女性说话者的声音,增加各性别组内的变异性,并显著提高女性说话者的识别准确性。
Oct, 2023
本研究使用法语作为研究语言,通过比较不同性别平衡的预训练数据集在 ASR 和 ST 中的表现来探究其影响。结果表明,性别平衡的预训练模型不一定导致最佳结果,并且使用自监督模型作为特征提取器时,ASR 和 ST 的结果会遵循更复杂的模式。
Apr, 2022
基于先前的研究,在一个多歌手的数据集上进行的旋律无监督多说话人预训练方法,提高了单个说话人的声域,同时不降低音色相似性。这种预训练方法可以应用于只包含音频和歌词对的大规模多歌手数据集,并改善了合成歌声的音质和节奏自然度。
Sep, 2023
提供了一种新的歌声合成方法 Prompt-Singer,使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量,并使用基于解码器的 transformer 模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性,同时,对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索,旨在促进进一步的研究,实验证明该模型具有良好的控制能力和音频质量。
Mar, 2024
在这篇论文中,我们提出了一种自监督的 SPA-SVC 方法,该方法可以改善 SVC 任务中的声音质量,无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数(SSIM)损失,有效提升了 SVC 模型的性能,实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。
Jun, 2024
本文提出了一种使用编码器 - 解码器网络开发的人脸图像合成方法,以测量商业计算机视觉分类器的反事实公平性,并报告了在线搜索服务中与职业相关的关键字中出现的偏向性,用以解释模型偏差的来源。
May, 2020
本研究提出了一个分析讲话者分离公平性的新协议和评分方法,对性别、年龄、口音及发音时长等因素对讲话者分离结果的影响进行了大规模数据集实验,发现讲话者口音和性别会对分离结果产生偏见。
Feb, 2023
本研究通过引入条件变分自动编码器作为神经网络,提出了一种名为 NSVB 的算法以解决唱歌者专业音色的问题,主要包括时间伸缩技术和基于隐变量的映射算法,该算法能够有效地进行音高校正并且在客观和主观尺度上均获得了更好的实验效果。
Feb, 2022
本研究探讨无需转录的直接语音翻译模型在性别翻译方面的性别偏见及其潜在危害,并比较不同方法通知模型说话人性别信息的效果,结果表明性别感知模型相比于无性别感知模型在性别标记词的翻译准确率上可提高 30 个百分点,同时保证总体翻译质量。
Dec, 2020