性别之后的言语：语音科学和技术的下一步——跨性别女性的观点

Jul, 2024

性别之后的言语：语音科学和技术的下一步——跨性别女性的观点

Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology

Robin Netzorg, Alyssa Cote, Sumi Koshin, Klo Vivienne Garoute, Gopala Krishna Anumanchipalli

TL;DR通过展示三个讲话者沿性别轴线调节声音的Versatile Voice Dataset (VVD)，研究论证了当前基于性别的语音建模方法未能考虑到声道的灵活性，而利用公开可获得的说话者嵌入，性别分类系统对声音调节非常敏感，而说话者验证系统在声音变化较大时无法识别为同一位讲话者。研究提议以个体特质声音纹理，如音调、共鸣和重量，作为跳出分类和静态说话者认同的一条路径。

Abstract

As experts in voice modification, trans-feminine gender-affirming voice teachers have unique perspectives on voice that confound current understandings of →

发现论文，激发创造

培育基于性别意识的直接语音翻译系统

本研究探讨无需转录的直接语音翻译模型在性别翻译方面的性别偏见及其潜在危害，并比较不同方法通知模型说话人性别信息的效果，结果表明性别感知模型相比于无性别感知模型在性别标记词的翻译准确率上可提高30个百分点，同时保证总体翻译质量。

Dec, 2020

生成具有性别模糊性的语音合成声音

本研究旨在通过生成潜在说话者嵌入空间中的采样来实现生成没有对应任何现有人物的性别不明確的语音助手，结果表明该方法能够有效且自然地生成新颖的声音，能够满足不同用户需求。

Nov, 2022

超越神经对神经方法：演讲者性别保护

本文介绍了通过使用历史上由语音科学家开发的语音特征来测试性别推断攻击，以及使用语音特征获取对防护修改如何改变语音信号的洞察；最后，指出应使用人工执行的声音适应性来改进可解释性并实现麦前保护的新型“语音对手”来比较性别保护算法。

Jun, 2023

揭示歌声转录中的性别公平

通过使用属性预测器对韵律事件进行条件对齐，我们提出了一种减少性别偏见的方法，在不降低整体歌唱声音转录性能的情况下，显著减少了性别偏见，从而提供更好的公平性-实用性权衡。

Aug, 2023

通过感知的声音特质实现说话人身份的可解释表示

通过添加性别感知语音特征到Consensus Auditory-Perceptual Evaluation of Voice（声音感知评估协议）中，基于感知声音特征的方法提供了一种成人声音性格的感知潜在空间，作为高层次人口统计学信息和低层次声学、物理或学习表示之间的中间抽象。与先前的观点相反，我们证明这些感知声音特征可以被非专家集体听到，并且进一步证明了以感知声音特征为基础的表示中所编码的信息可以通过多种语音表示进行预测。

Oct, 2023

不放过任何音高：通过调整音高解决自动语音识别中的性别不平衡问题

通过使用一个数据增强技术，我们可以减轻性别偏见问题，在语音识别系统中模拟女性说话者的声音，增加各性别组内的变异性，并显著提高女性说话者的识别准确性。

Oct, 2023

如何构建多性别竞争性语音翻译模型以控制说话者性别翻译

通过将说话者的性别元数据合并到单个“多性别”神经语音转换模型中，可以避免性别偏见并提高性别准确性（女性形式可提高12.9），相比专门的性别模型，该模型训练自零效果更好，而基于现有频培训模型的微调则不具有竞争力。

Oct, 2023

将语言模型整合到直接语音翻译中：一种控制性别屈折的推理时间解决方案

用于语音翻译系统的控制说话者性别变化的解决方案通过使用性别特定的外部语言模型，在性别准确性方面比基本模型和最好的训练时间缓解策略分别提高了31.0和1.6个百分点，特别是在说话者的声音特征与性别相冲突的情况下，增益甚至更大（最多32.0和3.4个百分点）。

Oct, 2023

声音过渡：一种不二元的声音性别预测系统，用于评估跨性别者的声音变化

描述通过连续的声音女性化百分比(VFP)来描述声音的软件系统，旨在帮助跨性别者在声音转变过程中以及支持他们的声音治疗师。通过记录了41名法国的非二元性别和跨性别说话者的语料库，并通过感知评估让57名参与者估计了每个声音的VFP。在外部性别平衡数据上训练了二元性别分类模型，并在重叠窗口上使用，得到了平均性别预测估计值，该值被校准以预测VFP，并且比基于$F_0$或声道长度的模型的准确性更高。训练数据的说话风格和DNN结构影响了VFP的估计。模型的准确性受到说话者年龄的影响，突显了在构建适当的文化概念的统计表达时，风格、年龄和性别的概念是二元的还是非二元的的重要性。

Apr, 2024

法国广播与电视档案中跨性别与时期的发音配置研究

本研究探讨了1955年至2015年间法国媒体档案中，跨性别和不同时间段的发音配置变化。通过将声学参数反转为发音参数，分析了来自上千名说话者的超过一百万个音框，发现男性和女性在声道长度相关的发音特征上存在显著差异。研究表明，女性音调随时间变化降低的观点并不成立，对声音质量的影响具有重要意义。

Aug, 2024