演讲者信息可指引模型更好地应用归纳偏好：以代码交替预测为例的案例研究

ACLMar, 2022

演讲者信息可指引模型更好地应用归纳偏好：以代码交替预测为例的案例研究

Speaker Information Can Guide Models to Better Inductive Biases: A Case Study On Predicting Code-Switching

Alissa Ostapenko, Shuly Wintner, Melinda Fricke, Yulia Tsvetkov

TL;DR通过在受控的、受过教育的方式下丰富模型的说话人信息，可以指导模型捕捉相关的归纳偏差。在预测英语 - 西班牙双语对话中的代码切换点的任务中，加入基于社会语言学的说话者特征可以显著提高准确性。此外，我们发现通过将有影响力的短语添加到输入中，基于说话者的语言模型可以学习有用且可解释的语言信息。这是我们首次将说话人信息纳入神经模型进行代码切换，更进一步地，朝着开发使用受控方式的透明个性化模型迈出了一步。

Abstract

natural language processing (NLP) models trained on people-generated data can be unreliable because, without any constraints, they can learn from spurious correlations that are not relevant to the task. We hypothesize that enriching models with →

natural language processing speaker information code-switching neural model personalized models

发现论文，激发创造

通过合成注释实现高保真度文本转语音的自然语言指导

通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Feb, 2024

多方对话中神经说话人建模：任务、数据集和模型

本文主要探讨了基于神经网络的对话系统中说话者建模的重要性问题，提出将说话者分类作为通用说话者建模的代理任务，并收集大量数据以支持这个方向的研究，进一步研究了基于时间和基于内容的说话者模型，并提出了几种混合模型。实验结果表明，说话者分类是可行的，混合模型表现优异。

Aug, 2017

用于视觉与语言导航的说话者 - 跟随者模型

本研究提出了一种使用内置语音模型的视觉 - 语言导航方法，该方法利用演讲者模型来合成新的指令进行数据增强，并实现了实用推理和全景动作空间，大大提高了基线指令跟随者的性能，在标准基准测试中成功率超过现有最佳方法的两倍。

Jun, 2018

使用神经合成数据的混合语言模型来处理句子间的平行语言切换

为了解决训练混合语言模型的困难，本研究提出了一种基于序列 - 序列模型及 copy 机制的新型训练方法，通过有限的混合语言数据和单语数据的并行翻译生成需要的混合语言数据，且无需对齐或分析，实现了良好的表现，并显著提高了末端自动语音识别。

Sep, 2019

如何构建多性别竞争性语音翻译模型以控制说话者性别翻译

通过将说话者的性别元数据合并到单个 “多性别” 神经语音转换模型中，可以避免性别偏见并提高性别准确性（女性形式可提高 12.9），相比专门的性别模型，该模型训练自零效果更好，而基于现有频培训模型的微调则不具有竞争力。

Oct, 2023

双语模型用于混合语言语音识别

本文提出了一种针对双语混杂文本的语言模型的新方法，即双语言模型，该方法使用单一语言模型的结构来改进标准的双语言模型，并将两个互补的单一语言模型结合在一起，以概率切换模型进行切换。我们使用一种会话式汉英语音语料库评估了该方法的有效性，并证明了我们的模型的鲁棒性，表明在不使用任何外部信息的情况下，在困惑度措施和自动语音识别错误率方面都会显著提高。

Nov, 2017

混码探针展示预训练模型如何在混码文本上泛化

本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究，揭示了预训练语言模型在泛化到混合语言文本上的有效性，从而为这些模型在处理混合语言资源方面的能力提供了洞察。

Mar, 2024

利用自然语句理解语言模型中的偏见

本文通过创建一个基于职业的自然句子语料库来评估语言模型上的偏差，与以往只使用合成数据集的研究方法有所不同，证明使用基于自然句子的提示会比基于预设模板的提示更为准确和系统化地评估性别 - 职业偏差。

May, 2022

双语多说话人谈话的上下文神经翻译模型

本文提出了一项翻译双语多说话者会话的任务，并探索了利用源语言和目标语言会话历史的神经网络架构，在 Europarl v7 和 OpenSubtitles2016 数据集上的实验证实了利用对话历史的重要性。

Sep, 2018

多语言模型在代码交错中有效吗？

本文研究了多语言语言模型在代码切换任务中的应用效果，通过研究实验得出使用元嵌入方法能够在参数数量减少的情况下取得类似的结果。

Mar, 2021