无标记数据和小型 BERT 模型的瑕疵探测
通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型(LLMs)中,我们将多标签异味检测任务作为一种语言建模问题进行了研究,并在包含英语和德语结巴语音的三个数据集上对系统进行了优化,以预测异味标签,实验结果表明我们的系统有效地结合声学和词法信息,在多标签结巴检测任务上取得了有竞争力的结果。
Jun, 2024
探索使用端到端语音识别模型直接将混杂的语音转化为流畅的转录文本的可能性,并且我们提出了两个新的度量标准来评估集成 ASR 和无流畅度模型的性能,该论文的发现可以作为未来关于端到端语音识别和无流畅度处理任务的研究的基准。
Sep, 2020
提出一种基于 BERT 模型的语音识别模型,其能够在实时检测迟滞状态下动态计算其向前看窗口的大小,从而在相较于传统模型有更佳的准确率以及更短的延迟时间,并在增量式迟滞检测研究中实现了最先进的稳定性得分和延迟性得分。
May, 2022
本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法,将其与传统的流水线工艺相比较,表现出更优异的准确性和实时性。
Nov, 2022
本文提出一种多任务基于 LSTM 的模型,用于增量检测口吃结构,可以连接到任何组件以进行增量解释,或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统,并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异,同时采用较简单的架构。为了测试模型的泛化潜力,我们在没有任何附加训练的情况下,在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力,并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。
Oct, 2018
本文针对训练数据短缺的问题,提出了使用自监督方法结合无标注数据构建伪训练数据进行预训练,并利用有标注的训练数据进行微调的方法,达到了使用少量数据在英语 Switchboard 数据集上与之前使用全数据进行训练的系统表现相当的结果。使用全数据进行训练时,我们的方法可将误差降低 21%。
Aug, 2019
自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障,而这些故障包括意愿性中断和单词重复,从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法,利用标准语音的大规模自我监督学习,然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集,增强对这些语音模式的 ASR 处理。结果表明,即使是对于一个相对较小的标记数据集,结合数据增强,通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性,而且为能够适应更广泛的语音变化的 ASR 铺平了道路。
Jun, 2024
说话不流畅现象,如填充式停顿或重复,是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用,发现基于声学的方法在性能上超过语言方法,同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。
Nov, 2023
本文提出了一种无监督学习的方法用于发现语言中的断续性,该方法使用廉价的无标注文本语料库,并借鉴了 Noisy Student Training 和上下文化词嵌入的思路,在英语 Switchboard 测试集上达到了与有监督系统竞争的效果。
Oct, 2020