流式联合语音识别和语调异常检测

Nov, 2022

流式联合语音识别和语调异常检测

Streaming Joint Speech Recognition and Disfluency Detection

Hayato Futami, Emiru Tsunoo, Kentaro Shibata, Yosuke Kashiwagi, Takao Okuda...

TL;DR本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法，将其与传统的流水线工艺相比较，表现出更优异的准确性和实时性。

Abstract

disfluency detection has mainly been solved in a pipeline approach, as post-processing of speech recognition. In this study, we propose Transformer-based encoder-decoder models that jointly solve →

disfluency detection transformer-based models speech recognition streaming disfluency detection multi-task model

发现论文，激发创造

教授 BERT 等待时间：平衡精度和延迟，用于流式错语检测

提出一种基于 BERT 模型的语音识别模型，其能够在实时检测迟滞状态下动态计算其向前看窗口的大小，从而在相较于传统模型有更佳的准确率以及更短的延迟时间，并在增量式迟滞检测研究中实现了最先进的稳定性得分和延迟性得分。

May, 2022

端到端语音识别和修正发语障

探索使用端到端语音识别模型直接将混杂的语音转化为流畅的转录文本的可能性，并且我们提出了两个新的度量标准来评估集成 ASR 和无流畅度模型的性能，该论文的发现可以作为未来关于端到端语音识别和无流畅度处理任务的研究的基准。

Sep, 2020

无标记数据和小型 BERT 模型的瑕疵探测

本文研究了基于 BERT 架构的小型、快速、本地化模型的流畅检测技术，探讨了自我训练、领域自适应和数据增强等方法对性能的影响，发现对这些小型模型来说，这些策略具有更加明显的影响。

Apr, 2021

基于 Transformer-RNN-Transducer 的多任务学习和联合优化语音识别

本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法，证明了这些方法能够有效地降低字词错误率，从而保持大型文本语料库的信息。

Nov, 2020

对话系统中面向领域通用口语断续检测的多任务学习

本文提出一种多任务基于 LSTM 的模型，用于增量检测口吃结构，可以连接到任何组件以进行增量解释，或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统，并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异，同时采用较简单的架构。为了测试模型的泛化潜力，我们在没有任何附加训练的情况下，在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力，并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。

Oct, 2018

一种新的多模态动态融合网络用于口语话语中的干扰检测

本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构，通过使用文本和声学模态之间的多模态动态融合网络，在个体话语中进行语调检测，结果表明在英语 Switchboard 上，我们的模型实现了最先进的效果，并且在文献中优于以前的单模态和多模态系统。

Nov, 2022

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023

端到端语音翻译中，从不流畅的语音中获得流畅的翻译

使用序列到序列模型实现了从具有语言障碍的演讲转化为流畅的文本，并且引入了如何评估此任务的考虑，为新任务提供了基础，即同时消除演讲中的语言障碍。

Jun, 2019

大型语言模型用于口吃语音的错断检测

通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型（LLMs）中，我们将多标签异味检测任务作为一种语言建模问题进行了研究，并在包含英语和德语结巴语音的三个数据集上对系统进行了优化，以预测异味标签，实验结果表明我们的系统有效地结合声学和词法信息，在多标签结巴检测任务上取得了有竞争力的结果。

Jun, 2024

可控时延变换器用于实时标点预测和语病检测

本文提出了一种能够实时完成插入标点符号和去除语言障碍的强调时间延迟变压器模型，为后续的机器翻译、对话系统等应用提高了可读性和性能。在 IWSLT2011 基准数据集和中文注释数据集上的实验证实，该方法在 F-score 上的表现优于之前的最佳模型，并达到了竞争性的推理速度。

Mar, 2020