超越神经对神经方法:演讲者性别保护
研究了语音翻译中存在的性别偏见问题,并基于英意/英法语言方向比较了级联与端到端技术,着重于探究如何利用音频信息来解决自然语言中的性别偏见问题。
Jun, 2020
本研究探讨无需转录的直接语音翻译模型在性别翻译方面的性别偏见及其潜在危害,并比较不同方法通知模型说话人性别信息的效果,结果表明性别感知模型相比于无性别感知模型在性别标记词的翻译准确率上可提高30个百分点,同时保证总体翻译质量。
Dec, 2020
本研究使用法语作为研究语言,通过比较不同性别平衡的预训练数据集在ASR和ST中的表现来探究其影响。结果表明,性别平衡的预训练模型不一定导致最佳结果,并且使用自监督模型作为特征提取器时,ASR和ST的结果会遵循更复杂的模式。
Apr, 2022
本研究旨在通过生成潜在说话者嵌入空间中的采样来实现生成没有对应任何现有人物的性别不明確的语音助手,结果表明该方法能够有效且自然地生成新颖的声音,能够满足不同用户需求。
Nov, 2022
通过使用属性预测器对韵律事件进行条件对齐,我们提出了一种减少性别偏见的方法,在不降低整体歌唱声音转录性能的情况下,显著减少了性别偏见,从而提供更好的公平性-实用性权衡。
Aug, 2023
通过使用一个数据增强技术,我们可以减轻性别偏见问题,在语音识别系统中模拟女性说话者的声音,增加各性别组内的变异性,并显著提高女性说话者的识别准确性。
Oct, 2023
通过将说话者的性别元数据合并到单个“多性别”神经语音转换模型中,可以避免性别偏见并提高性别准确性(女性形式可提高12.9),相比专门的性别模型,该模型训练自零效果更好,而基于现有频培训模型的微调则不具有竞争力。
Oct, 2023
用于语音翻译系统的控制说话者性别变化的解决方案通过使用性别特定的外部语言模型,在性别准确性方面比基本模型和最好的训练时间缓解策略分别提高了31.0和1.6个百分点,特别是在说话者的声音特征与性别相冲突的情况下,增益甚至更大(最多32.0和3.4个百分点)。
Oct, 2023
描述通过连续的声音女性化百分比(VFP)来描述声音的软件系统,旨在帮助跨性别者在声音转变过程中以及支持他们的声音治疗师。通过记录了41名法国的非二元性别和跨性别说话者的语料库,并通过感知评估让57名参与者估计了每个声音的VFP。在外部性别平衡数据上训练了二元性别分类模型,并在重叠窗口上使用,得到了平均性别预测估计值,该值被校准以预测VFP,并且比基于$F_0$或声道长度的模型的准确性更高。训练数据的说话风格和DNN结构影响了VFP的估计。模型的准确性受到说话者年龄的影响,突显了在构建适当的文化概念的统计表达时,风格、年龄和性别的概念是二元的还是非二元的的重要性。
Apr, 2024
通过展示三个讲话者沿性别轴线调节声音的Versatile Voice Dataset (VVD),研究论证了当前基于性别的语音建模方法未能考虑到声道的灵活性,而利用公开可获得的说话者嵌入,性别分类系统对声音调节非常敏感,而说话者验证系统在声音变化较大时无法识别为同一位讲话者。研究提议以个体特质声音纹理,如音调、共鸣和重量,作为跳出分类和静态说话者认同的一条路径。
Jul, 2024