端到端语音识别和修正发语障
使用序列到序列模型实现了从具有语言障碍的演讲转化为流畅的文本,并且引入了如何评估此任务的考虑,为新任务提供了基础,即同时消除演讲中的语言障碍。
Jun, 2019
本文提出了一种在端到端语音翻译模型中加入中间步骤的方法,以去除交谈式语音中的不流利现象,并引入了清理后的 Fisher 西班牙语 - 英语数据集,为清理含绕口令语音的翻译提供了一个基准。
Nov, 2018
基于最近在大规模音频预训练方面的成功,我们重新评估两阶段和端到端模型之间的性能比较,并发现使用弱自监督目标进行音频预训练的语音模型与类似训练的两阶段模型的性能相匹配或超过,而预训练目标的选择显著影响模型适应去除启动词任务的能力。
Sep, 2023
说话不流畅现象,如填充式停顿或重复,是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用,发现基于声学的方法在性能上超过语言方法,同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。
Nov, 2023
本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法,将其与传统的流水线工艺相比较,表现出更优异的准确性和实时性。
Nov, 2022
本文研究了基于 BERT 架构的小型、快速、本地化模型的流畅检测技术,探讨了自我训练、领域自适应和数据增强等方法对性能的影响,发现对这些小型模型来说,这些策略具有更加明显的影响。
Apr, 2021
本研究介绍了 DisfluencyFixer,一种使用 ASR,DC 和 TTS 模型的语音转语音消除不流畅话语的工具,可提高语言学习者口语流畅度,为其提供转录、非流畅性类型和源话语中总不流畅计数的输出。
May, 2023
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
Mar, 2023
这项研究评估了六个领先的自动语音识别系统对有语吃现象的言语的处理性能,并发现这些系统普遍存在的准确性偏差对不流利言语的处理,导致语法和语义不准确的转录,揭示了当前自动语音识别技术存在的重要差距,强调了有效的偏见缓解策略的必要性。
May, 2024
自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障,而这些故障包括意愿性中断和单词重复,从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法,利用标准语音的大规模自我监督学习,然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集,增强对这些语音模式的 ASR 处理。结果表明,即使是对于一个相对较小的标记数据集,结合数据增强,通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性,而且为能够适应更广泛的语音变化的 ASR 铺平了道路。
Jun, 2024