无标记数据和小型 BERT 模型的瑕疵探测

Apr, 2021

无标记数据和小型 BERT 模型的瑕疵探测

Disfluency Detection with Unlabeled Data and Small BERT Models

Johann C. Rocholl, Vicky Zayats, Daniel D. Walker, Noah B. Murad, Aaron Schneider...

TL;DR本文研究了基于 BERT 架构的小型、快速、本地化模型的流畅检测技术，探讨了自我训练、领域自适应和数据增强等方法对性能的影响，发现对这些小型模型来说，这些策略具有更加明显的影响。

Abstract

disfluency detection models now approach high accuracy on English text. However, little exploration has been done in improving the size and inference time of the model. At the same time, automatic speech recognition (ASR) models are moving from server-side inference to local,

disfluency detection bert architecture on-device inference data augmentation domain adaptation

发现论文，激发创造

大型语言模型用于口吃语音的错断检测

通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型（LLMs）中，我们将多标签异味检测任务作为一种语言建模问题进行了研究，并在包含英语和德语结巴语音的三个数据集上对系统进行了优化，以预测异味标签，实验结果表明我们的系统有效地结合声学和词法信息，在多标签结巴检测任务上取得了有竞争力的结果。

Jun, 2024

端到端语音识别和修正发语障

探索使用端到端语音识别模型直接将混杂的语音转化为流畅的转录文本的可能性，并且我们提出了两个新的度量标准来评估集成 ASR 和无流畅度模型的性能，该论文的发现可以作为未来关于端到端语音识别和无流畅度处理任务的研究的基准。

Sep, 2020

教授 BERT 等待时间：平衡精度和延迟，用于流式错语检测

提出一种基于 BERT 模型的语音识别模型，其能够在实时检测迟滞状态下动态计算其向前看窗口的大小，从而在相较于传统模型有更佳的准确率以及更短的延迟时间，并在增量式迟滞检测研究中实现了最先进的稳定性得分和延迟性得分。

May, 2022

流式联合语音识别和语调异常检测

本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法，将其与传统的流水线工艺相比较，表现出更优异的准确性和实时性。

Nov, 2022

对话系统中面向领域通用口语断续检测的多任务学习

本文提出一种多任务基于 LSTM 的模型，用于增量检测口吃结构，可以连接到任何组件以进行增量解释，或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统，并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异，同时采用较简单的架构。为了测试模型的泛化潜力，我们在没有任何附加训练的情况下，在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力，并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。

Oct, 2018

利用大型语言模型作为发错流产生器提升发错流检测

利用大型语言模型（LLM）生成多样和更真实的句子作为数据增强，结合不确定性感知的数据过滤方法，提高失语检测性能，进一步增强成本效益。

Mar, 2024

多任务自监督学习用于消除语注检测

本文针对训练数据短缺的问题，提出了使用自监督方法结合无标注数据构建伪训练数据进行预训练，并利用有标注的训练数据进行微调的方法，达到了使用少量数据在英语 Switchboard 数据集上与之前使用全数据进行训练的系统表现相当的结果。使用全数据进行训练时，我们的方法可将误差降低 21%。

Aug, 2019

面向非流畅语音的包容性自动语音识别：级联大规模自监督学习与目标微调和数据增强

自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障，而这些故障包括意愿性中断和单词重复，从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法，利用标准语音的大规模自我监督学习，然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集，增强对这些语音模式的 ASR 处理。结果表明，即使是对于一个相对较小的标记数据集，结合数据增强，通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性，而且为能够适应更广泛的语音变化的 ASR 铺平了道路。

Jun, 2024

自动识别未转录语音中的干扰

说话不流畅现象，如填充式停顿或重复，是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用，发现基于声学的方法在性能上超过语言方法，同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。

Nov, 2023

自训练与自监督学习相结合的非监督式病态语检测

本文提出了一种无监督学习的方法用于发现语言中的断续性，该方法使用廉价的无标注文本语料库，并借鉴了 Noisy Student Training 和上下文化词嵌入的思路，在英语 Switchboard 测试集上达到了与有监督系统竞争的效果。

Oct, 2020