低资源语调修正的对抗训练
本研究介绍了 DisfluencyFixer,一种使用 ASR,DC 和 TTS 模型的语音转语音消除不流畅话语的工具,可提高语言学习者口语流畅度,为其提供转录、非流畅性类型和源话语中总不流畅计数的输出。
May, 2023
消除话语中填充词、重复和修正等不流畅元素的过程是后处理自动语音识别(ASR)输出、在下游语言理解任务之前的关键步骤。我们提供了一个高质量的人工标注的多语言不流畅纠正语料库,涵盖了四种重要的印欧语言:英语、印地语、德语和法语。在四种语言的全面结果分析中,我们获得了 97.55(英语)、94.29(印地语)、95.89(德语)和 92.97(法语)的 F1 得分。为了证明不流畅纠正对下游任务的益处,我们展示了与最先进的机器翻译(MT)系统结合使用时 BLEU 得分平均提高了 5.65 个点。我们在此处发布了运行实验的代码和我们的注释数据集。
Oct, 2023
本文提出一种多任务基于 LSTM 的模型,用于增量检测口吃结构,可以连接到任何组件以进行增量解释,或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统,并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异,同时采用较简单的架构。为了测试模型的泛化潜力,我们在没有任何附加训练的情况下,在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力,并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。
Oct, 2018
本文针对训练数据短缺的问题,提出了使用自监督方法结合无标注数据构建伪训练数据进行预训练,并利用有标注的训练数据进行微调的方法,达到了使用少量数据在英语 Switchboard 数据集上与之前使用全数据进行训练的系统表现相当的结果。使用全数据进行训练时,我们的方法可将误差降低 21%。
Aug, 2019
自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障,而这些故障包括意愿性中断和单词重复,从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法,利用标准语音的大规模自我监督学习,然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集,增强对这些语音模式的 ASR 处理。结果表明,即使是对于一个相对较小的标记数据集,结合数据增强,通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性,而且为能够适应更广泛的语音变化的 ASR 铺平了道路。
Jun, 2024
本文研究了基于 BERT 架构的小型、快速、本地化模型的流畅检测技术,探讨了自我训练、领域自适应和数据增强等方法对性能的影响,发现对这些小型模型来说,这些策略具有更加明显的影响。
Apr, 2021
本文提出了一种在端到端语音翻译模型中加入中间步骤的方法,以去除交谈式语音中的不流利现象,并引入了清理后的 Fisher 西班牙语 - 英语数据集,为清理含绕口令语音的翻译提供了一个基准。
Nov, 2018
本文提出了一个领域对抗训练算法(DAT)来缓解口音识别问题。我们将领域对抗训练(DAT)目标与 Kaldi TDNN 网络的学习目标相结合,鼓励模型学习不受口音影响的特征,以减少标准口音和带有口音的未标记目标域数据之间的不匹配。通过三种不同的普通话口音的实验,我们发现,与仅训练标准口音数据的基线相比,当我们没有口音转录时,DAT 可以使得字符错误率相对降低达 7.45%。我们还发现,DAT 与口音数据自动转录训练结合使用时具有优势,并且 DAT 比多任务学习在口音识别方面更为优异。
Jun, 2018
本文提出了一种名为 LARD 的方法,该方法可以从流畅的文本中自动生成人工语言障碍,并将上下文嵌入到混淆生成中以产生逼真的上下文感知人工语言障碍,从而绕过标注数据的要求。我们的实验证明 LARD 可以在没有或只有少量数据时有效地使用,并增加了现有混淆检测器的准确性。
Nov, 2022
本文提出了一种无监督学习的方法用于发现语言中的断续性,该方法使用廉价的无标注文本语料库,并借鉴了 Noisy Student Training 和上下文化词嵌入的思路,在英语 Switchboard 测试集上达到了与有监督系统竞争的效果。
Oct, 2020