流式联合语音识别和语调异常检测
提出一种基于 BERT 模型的语音识别模型,其能够在实时检测迟滞状态下动态计算其向前看窗口的大小,从而在相较于传统模型有更佳的准确率以及更短的延迟时间,并在增量式迟滞检测研究中实现了最先进的稳定性得分和延迟性得分。
May, 2022
探索使用端到端语音识别模型直接将混杂的语音转化为流畅的转录文本的可能性,并且我们提出了两个新的度量标准来评估集成 ASR 和无流畅度模型的性能,该论文的发现可以作为未来关于端到端语音识别和无流畅度处理任务的研究的基准。
Sep, 2020
本文研究了基于 BERT 架构的小型、快速、本地化模型的流畅检测技术,探讨了自我训练、领域自适应和数据增强等方法对性能的影响,发现对这些小型模型来说,这些策略具有更加明显的影响。
Apr, 2021
本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法,证明了这些方法能够有效地降低字词错误率,从而保持大型文本语料库的信息。
Nov, 2020
本文提出一种多任务基于 LSTM 的模型,用于增量检测口吃结构,可以连接到任何组件以进行增量解释,或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统,并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异,同时采用较简单的架构。为了测试模型的泛化潜力,我们在没有任何附加训练的情况下,在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力,并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。
Oct, 2018
本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构,通过使用文本和声学模态之间的多模态动态融合网络,在个体话语中进行语调检测,结果表明在英语 Switchboard 上,我们的模型实现了最先进的效果,并且在文献中优于以前的单模态和多模态系统。
Nov, 2022
提出了一种流式 Transformer-Transducer (T-T) 模型,能够使用单个解码器联合生成多对一和一对多的转录和翻译,并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性,首次实现了使用单个解码器生成一对多联合输出。
Oct, 2023
使用序列到序列模型实现了从具有语言障碍的演讲转化为流畅的文本,并且引入了如何评估此任务的考虑,为新任务提供了基础,即同时消除演讲中的语言障碍。
Jun, 2019
通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型(LLMs)中,我们将多标签异味检测任务作为一种语言建模问题进行了研究,并在包含英语和德语结巴语音的三个数据集上对系统进行了优化,以预测异味标签,实验结果表明我们的系统有效地结合声学和词法信息,在多标签结巴检测任务上取得了有竞争力的结果。
Jun, 2024
本文提出了一种能够实时完成插入标点符号和去除语言障碍的强调时间延迟变压器模型,为后续的机器翻译、对话系统等应用提高了可读性和性能。在 IWSLT2011 基准数据集和中文注释数据集上的实验证实,该方法在 F-score 上的表现优于之前的最佳模型,并达到了竞争性的推理速度。
Mar, 2020