从不流畅的言语走向流利的翻译
使用序列到序列模型实现了从具有语言障碍的演讲转化为流畅的文本,并且引入了如何评估此任务的考虑,为新任务提供了基础,即同时消除演讲中的语言障碍。
Jun, 2019
探索使用端到端语音识别模型直接将混杂的语音转化为流畅的转录文本的可能性,并且我们提出了两个新的度量标准来评估集成 ASR 和无流畅度模型的性能,该论文的发现可以作为未来关于端到端语音识别和无流畅度处理任务的研究的基准。
Sep, 2020
本文研究如何使强 NMT 系统适应典型 ASR 错误,并提出适应策略以训练单一系统,能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明,对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的,但在翻译干净文本时会产生轻微恶化。 在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。
Oct, 2019
本文提出一种多任务基于 LSTM 的模型,用于增量检测口吃结构,可以连接到任何组件以进行增量解释,或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统,并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异,同时采用较简单的架构。为了测试模型的泛化潜力,我们在没有任何附加训练的情况下,在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力,并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。
Oct, 2018
说话不流畅现象,如填充式停顿或重复,是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用,发现基于声学的方法在性能上超过语言方法,同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。
Nov, 2023
基于最近在大规模音频预训练方面的成功,我们重新评估两阶段和端到端模型之间的性能比较,并发现使用弱自监督目标进行音频预训练的语音模型与类似训练的两阶段模型的性能相匹配或超过,而预训练目标的选择显著影响模型适应去除启动词任务的能力。
Sep, 2023
本文旨在通过使用多语言方法探究转移学习在以端到端神经模型进行口语翻译中的有效性,结果表明,使用目标语言嵌入语义空间可以更有效地区分不同目标语言并改进结果,其中当对相似语言进行翻译时效果更为显著,特别是数据不足的情况下。
Oct, 2019
自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障,而这些故障包括意愿性中断和单词重复,从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法,利用标准语音的大规模自我监督学习,然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集,增强对这些语音模式的 ASR 处理。结果表明,即使是对于一个相对较小的标记数据集,结合数据增强,通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性,而且为能够适应更广泛的语音变化的 ASR 铺平了道路。
Jun, 2024
本研究介绍了 DisfluencyFixer,一种使用 ASR,DC 和 TTS 模型的语音转语音消除不流畅话语的工具,可提高语言学习者口语流畅度,为其提供转录、非流畅性类型和源话语中总不流畅计数的输出。
May, 2023