大型语言模型用于口吃语音的错断检测

Jun, 2024

大型语言模型用于口吃语音的错断检测

Large Language Models for Dysfluency Detection in Stuttered Speech

Dominik Wagner, Sebastian P. Bayerl, Ilja Baumann, Korbinian Riedhammer, Elmar Nöth...

TL;DR通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型（LLMs）中，我们将多标签异味检测任务作为一种语言建模问题进行了研究，并在包含英语和德语结巴语音的三个数据集上对系统进行了优化，以预测异味标签，实验结果表明我们的系统有效地结合声学和词法信息，在多标签结巴检测任务上取得了有竞争力的结果。

Abstract

Accurately detecting dysfluencies in spoken language can help to improve the performance of automatic speech and language processing components and support the development of more inclusive speech and language te

dysfluencies spoken language automatic speech processing language models stuttering detection

发现论文，激发创造

利用大型语言模型作为发错流产生器提升发错流检测

利用大型语言模型（LLM）生成多样和更真实的句子作为数据增强，结合不确定性感知的数据过滤方法，提高失语检测性能，进一步增强成本效益。

Mar, 2024

走向层次化口语语言流畅性建模

演讲不流利建模是语言治疗和语言学习的瓶颈，但是目前还没有人工智能解决方案来系统地解决这个问题。我们首先提出定义不流利演讲和不流利演讲建模的概念。然后，我们介绍了一种名为 H-UDM（Hierarchical Unconstrained Dysfluency Modeling）的方法来解决不流利演讲的转录和检测问题，从而消除了对大量手工注释的需求。此外，我们还推出了一个名为 VCTK++ 的模拟不流利数据集，以增强 H-UDM 在语音转录方面的能力。我们的实验结果证明了我们提出的方法在转录和检测任务中的有效性和稳健性。

Jan, 2024

无标记数据和小型 BERT 模型的瑕疵探测

本文研究了基于 BERT 架构的小型、快速、本地化模型的流畅检测技术，探讨了自我训练、领域自适应和数据增强等方法对性能的影响，发现对这些小型模型来说，这些策略具有更加明显的影响。

Apr, 2021

对话系统中面向领域通用口语断续检测的多任务学习

本文提出一种多任务基于 LSTM 的模型，用于增量检测口吃结构，可以连接到任何组件以进行增量解释，或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统，并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异，同时采用较简单的架构。为了测试模型的泛化潜力，我们在没有任何附加训练的情况下，在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力，并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。

Oct, 2018

自动识别未转录语音中的干扰

说话不流畅现象，如填充式停顿或重复，是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用，发现基于声学的方法在性能上超过语言方法，同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。

Nov, 2023

一种新的多模态动态融合网络用于口语话语中的干扰检测

本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构，通过使用文本和声学模态之间的多模态动态融合网络，在个体话语中进行语调检测，结果表明在英语 Switchboard 上，我们的模型实现了最先进的效果，并且在文献中优于以前的单模态和多模态系统。

Nov, 2022

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

多阶段大型语言模型纠错用于语音识别

使用大型语言模型提高竞争性语音识别系统的性能，并通过多阶段方法结合传统语言模型重新评分和大型语言模型提示来进行 ASR 错误修正。

Oct, 2023

大型语言模型应用于实际世界仇恨言论检测的调查

使用大型语言模型和四种不同的提示策略，发现大型语言模型能够有效地检测恶意言论并超过当前基准机器学习模型的性能，提示策略在高效利用大型语言模型的知识库方面起到关键作用。

Jan, 2024

使用深度残差网络和双向长短时记忆检测多种语音不流畅

本文提出了一种基于声学特征而不是语言模型的口吃检测和分类的模型，采用了深度残差网络和双向长短时记忆层，以识别几种形式的口吃，平均漏诊率仅为 10.03％，比现有技术先进了近 27%。

Oct, 2019