端到端语音识别和修正发语障

Sep, 2020

End-to-End Speech Recognition and Disfluency Removal

Paria Jamshid Lou, Mark Johnson

TL;DR探索使用端到端语音识别模型直接将混杂的语音转化为流畅的转录文本的可能性，并且我们提出了两个新的度量标准来评估集成 ASR 和无流畅度模型的性能，该论文的发现可以作为未来关于端到端语音识别和无流畅度处理任务的研究的基准。

Abstract

disfluency detection is usually an intermediate step between an automatic speech recognition (ASR) system and a downstream task. By contrast, this paper aims to investigate the task of end-to-end speech recognition

disfluency detection end-to-end speech recognition asr model fluent transcripts benchmark

发现论文，激发创造

端到端语音翻译中，从不流畅的语音中获得流畅的翻译

使用序列到序列模型实现了从具有语言障碍的演讲转化为流畅的文本，并且引入了如何评估此任务的考虑，为新任务提供了基础，即同时消除演讲中的语言障碍。

Jun, 2019

从不流畅的言语走向流利的翻译

本文提出了一种在端到端语音翻译模型中加入中间步骤的方法，以去除交谈式语音中的不流利现象，并引入了清理后的 Fisher 西班牙语 - 英语数据集，为清理含绕口令语音的翻译提供了一个基准。

Nov, 2018

基于声学语言模型预训练的端到端语音识别和流畅性修正

基于最近在大规模音频预训练方面的成功，我们重新评估两阶段和端到端模型之间的性能比较，并发现使用弱自监督目标进行音频预训练的语音模型与类似训练的两阶段模型的性能相匹配或超过，而预训练目标的选择显著影响模型适应去除启动词任务的能力。

Sep, 2023

自动识别未转录语音中的干扰

说话不流畅现象，如填充式停顿或重复，是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用，发现基于声学的方法在性能上超过语言方法，同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。

Nov, 2023

流式联合语音识别和语调异常检测

本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法，将其与传统的流水线工艺相比较，表现出更优异的准确性和实时性。

Nov, 2022

无标记数据和小型 BERT 模型的瑕疵探测

本文研究了基于 BERT 架构的小型、快速、本地化模型的流畅检测技术，探讨了自我训练、领域自适应和数据增强等方法对性能的影响，发现对这些小型模型来说，这些策略具有更加明显的影响。

Apr, 2021

DisfluencyFixer：基于语音纠错的语言学习增强工具

本研究介绍了 DisfluencyFixer，一种使用 ASR，DC 和 TTS 模型的语音转语音消除不流畅话语的工具，可提高语言学习者口语流畅度，为其提供转录、非流畅性类型和源话语中总不流畅计数的输出。

May, 2023

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

失传于转录：识别和量化自动语音识别系统对不流利语音的准确性偏差

这项研究评估了六个领先的自动语音识别系统对有语吃现象的言语的处理性能，并发现这些系统普遍存在的准确性偏差对不流利言语的处理，导致语法和语义不准确的转录，揭示了当前自动语音识别技术存在的重要差距，强调了有效的偏见缓解策略的必要性。

May, 2024

面向非流畅语音的包容性自动语音识别：级联大规模自监督学习与目标微调和数据增强

自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障，而这些故障包括意愿性中断和单词重复，从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法，利用标准语音的大规模自我监督学习，然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集，增强对这些语音模式的 ASR 处理。结果表明，即使是对于一个相对较小的标记数据集，结合数据增强，通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性，而且为能够适应更广泛的语音变化的 ASR 铺平了道路。

Jun, 2024