超越神经对神经方法：演讲者性别保护

Jun, 2023

超越神经对神经方法：演讲者性别保护

Beyond Neural-on-Neural Approaches to Speaker Gender Protection

Loes van Bemmel, Zhuoran Liu, Nik Vaessen, Martha Larson

TL;DR本文介绍了通过使用历史上由语音科学家开发的语音特征来测试性别推断攻击，以及使用语音特征获取对防护修改如何改变语音信号的洞察；最后，指出应使用人工执行的声音适应性来改进可解释性并实现麦前保护的新型“语音对手”来比较性别保护算法。

Abstract

Recent research has proposed approaches that modify speech to defend against gender inference attacks. The goal of these protection algorithms is to control the availability of information about a speaker's gender, a privacy-sensitive attribute. Currently, the common practice for devel

发现论文，激发创造

性别危险？在MuST-SHE语料库上评估语音翻译技术

研究了语音翻译中存在的性别偏见问题，并基于英意/英法语言方向比较了级联与端到端技术，着重于探究如何利用音频信息来解决自然语言中的性别偏见问题。

Jun, 2020

培育基于性别意识的直接语音翻译系统

本研究探讨无需转录的直接语音翻译模型在性别翻译方面的性别偏见及其潜在危害，并比较不同方法通知模型说话人性别信息的效果，结果表明性别感知模型相比于无性别感知模型在性别标记词的翻译准确率上可提高30个百分点，同时保证总体翻译质量。

Dec, 2020

自监督语音转文本系统中性别影响的研究

本研究使用法语作为研究语言，通过比较不同性别平衡的预训练数据集在ASR和ST中的表现来探究其影响。结果表明，性别平衡的预训练模型不一定导致最佳结果，并且使用自监督模型作为特征提取器时，ASR和ST的结果会遵循更复杂的模式。

Apr, 2022

生成具有性别模糊性的语音合成声音

本研究旨在通过生成潜在说话者嵌入空间中的采样来实现生成没有对应任何现有人物的性别不明確的语音助手，结果表明该方法能够有效且自然地生成新颖的声音，能够满足不同用户需求。

Nov, 2022

揭示歌声转录中的性别公平

通过使用属性预测器对韵律事件进行条件对齐，我们提出了一种减少性别偏见的方法，在不降低整体歌唱声音转录性能的情况下，显著减少了性别偏见，从而提供更好的公平性-实用性权衡。

Aug, 2023

不放过任何音高：通过调整音高解决自动语音识别中的性别不平衡问题

通过使用一个数据增强技术，我们可以减轻性别偏见问题，在语音识别系统中模拟女性说话者的声音，增加各性别组内的变异性，并显著提高女性说话者的识别准确性。

Oct, 2023

如何构建多性别竞争性语音翻译模型以控制说话者性别翻译

通过将说话者的性别元数据合并到单个“多性别”神经语音转换模型中，可以避免性别偏见并提高性别准确性（女性形式可提高12.9），相比专门的性别模型，该模型训练自零效果更好，而基于现有频培训模型的微调则不具有竞争力。

Oct, 2023

将语言模型整合到直接语音翻译中：一种控制性别屈折的推理时间解决方案

用于语音翻译系统的控制说话者性别变化的解决方案通过使用性别特定的外部语言模型，在性别准确性方面比基本模型和最好的训练时间缓解策略分别提高了31.0和1.6个百分点，特别是在说话者的声音特征与性别相冲突的情况下，增益甚至更大（最多32.0和3.4个百分点）。

Oct, 2023

声音过渡：一种不二元的声音性别预测系统，用于评估跨性别者的声音变化

描述通过连续的声音女性化百分比(VFP)来描述声音的软件系统，旨在帮助跨性别者在声音转变过程中以及支持他们的声音治疗师。通过记录了41名法国的非二元性别和跨性别说话者的语料库，并通过感知评估让57名参与者估计了每个声音的VFP。在外部性别平衡数据上训练了二元性别分类模型，并在重叠窗口上使用，得到了平均性别预测估计值，该值被校准以预测VFP，并且比基于$F_0$或声道长度的模型的准确性更高。训练数据的说话风格和DNN结构影响了VFP的估计。模型的准确性受到说话者年龄的影响，突显了在构建适当的文化概念的统计表达时，风格、年龄和性别的概念是二元的还是非二元的的重要性。

Apr, 2024

性别之后的言语：语音科学和技术的下一步——跨性别女性的观点

通过展示三个讲话者沿性别轴线调节声音的Versatile Voice Dataset (VVD)，研究论证了当前基于性别的语音建模方法未能考虑到声道的灵活性，而利用公开可获得的说话者嵌入，性别分类系统对声音调节非常敏感，而说话者验证系统在声音变化较大时无法识别为同一位讲话者。研究提议以个体特质声音纹理，如音调、共鸣和重量，作为跳出分类和静态说话者认同的一条路径。

Jul, 2024