降低对话文本生成中说话人姓名的敏感性
通过在受控的、受过教育的方式下丰富模型的说话人信息,可以指导模型捕捉相关的归纳偏差。在预测英语 - 西班牙双语对话中的代码切换点的任务中,加入基于社会语言学的说话者特征可以显著提高准确性。此外,我们发现通过将有影响力的短语添加到输入中,基于说话者的语言模型可以学习有用且可解释的语言信息。这是我们首次将说话人信息纳入神经模型进行代码切换,更进一步地,朝着开发使用受控方式的透明个性化模型迈出了一步。
Mar, 2022
通过使用不同的个性化技术来提高语音识别的效果,我们提出了一种基于关键词精度和召回率的词汇获取性能评估方法,并在设计的包含难以识别人名的数据集上进行了算法评估,其中,数据合成方法可以将基线的人名召回率从 2.4% 提高到 48.6%。在进行名字修正的情况下,名字召回率可提高至 64.4%。通过在移动设备上执行整个个性化工作流程,我们摆脱了上传用户数据和在服务器上存储个性化模型的需要。
Dec, 2019
本研究旨在检验语言模型中名字对常识推理能力的影响,并提出了可控性实验框架和解释分析来证明了首次提出的假设,即一般的常识推理与他们所用的人名无关,结果显示人名的频次对模型的预测产生了不同的影响,并建议在数据集配置阶段增加更多多样性的人名以确保模型的健壮性。
Jun, 2023
本文提出了一种基于注意力机制的在线自适应方法,以处理视频分析领域的说话人识别任务,实现对新数据的模型更新,减少模型设置时间,并在多项评估指标中比较了该方法与现有梯度方法的性能优劣,进一步验证了该方法的有效性。
Dec, 2019
通过对九种语言的组件进行转换,将说话人匿名化系统扩展到多种语言,并通过隐私攻击和语音退化测试证明了该系统的整体成功。结果表明,基于英语数据训练的说话人嵌入可以应用于多种语言,并且语音合成组件的质量主要影响该语言的匿名化性能。
Jul, 2024
研究使用计数因果数据增强(CDA)方法来消除单词嵌入中的性别偏见,使用了 CDA 改进方法和名字干预技术,发现 CDA 变种在消除直接性别偏见和绘制非偏性别类比任务上比传统的基于投影方法表现更好。CDA/S 是唯一一个能够减轻间接性别偏差:在去偏后,以前有偏见的单词根据性别聚集的情况显着减少,从而改善去偏的最新技术水平。
Sep, 2019
通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而,这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础,从而限制了其创造性应用。相反,关于说话人身份和风格的自然语言提示已经展示了有希望的结果,并提供了一种直观的控制方法。然而,依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后,我们将这种方法应用到一个 45k 小时的数据集上,用于训练语音语言模型。此外,我们提出了简单的方法来增加音频保真度,尽管完全依赖于现有数据,但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件,实现了高保真度的语音生成,在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。
Feb, 2024
本文探讨利用个人化的端到端语音识别模型在移动设备上安全训练,使用户数据和模型不离开设备和服务器,以提高数据隐私和可扩展性。实验结果表明,在设备个性化的情况下,相对词误差率降低了 63.7%,性能略有下降(18.7%)但是最终实现了更好的数据隐私保护。
Sep, 2019
对语言模型所训练的某些人群的特定语言信号的存在进行研究,发现这可能导致歧视。本文探讨一种减少偏见的可能技术,即简化文本,实验结果表明,对于简化的数据,预测敏感属性的分类器准确性下降了最多 17%。
May, 2023