实时语音中断分析:从云端到客户端部署
本研究旨在探讨在预训练和fine-tuning阶段数据属性存在实质性差异的情况下,在空中交通管制数据上分析Wav2Vec 2.0和XLS-R模型的鲁棒性,结果显示,通过只使用已标注数据的较小部分来对E2E声学模型进行fine-tuning,相对于基于混合式ASR基线的声学模型,可以在几个开源且具有挑战性的ATC数据库中实现20%至40%的相对字错率降低,并分析了一种ATC数据集中的低资源和性别偏见的情况。
Mar, 2022
该研究探讨了在自动语音识别(ASR)研究中备受关注的‘Switchboard benchmark’数据集的一些实用考虑,并提出了修正参考转录和改变评分方法的更详细和可重复的方案。通过这种方案,甚至商业ASR系统的WER得分也可以低于5%,研究系统的表现记录下降至2.3%。此外,还探索了使用标准化评分工具计算oracle WER的方法,并比较了短语备选项表示和utterance/word-level的结构。最终,使用密集网络和添加字典外单词的方法实现了0.18%的oracle WER。
Jun, 2022
对话系统中的定时关键,6种语言的自然对话数据的词错误率仍然糟糕,重叠问题是一个关键挑战,对话词语的识别受到影响,进而对下游意图识别产生严重后果。
Jul, 2023
引入首个远场音频记录的自然办公室对话者(“NOTSOFAR-1”)挑战,共带来数据集和基准系统。该挑战专注于远距离发言人日记和远场会议情景下的自动语音识别(DASR),并推出两个新的数据集:一是315个会议的基准测试数据集,每个会议平均约6分钟,捕捉了广泛的真实世界声学环境和对话动态;二是1000小时的模拟训练数据集,以增强真实世界泛化的真实性,并融合了15000个真实声学传递函数。该研究聚焦于单设备DASR,在多通道设备的情况下具有相同已知的几何形状,旨在推动远距离对话语音识别领域的研究,为解锁数据驱动方法的潜力提供关键资源。
Jan, 2024
实时检测对话中的中断对于会话型人工智能系统至关重要,因为它能采取纠正措施以成功完成任务。本文介绍了一种多模态上下文对话中断模型(MultConDB),该模型通过在实时转录文本上进行音频输入处理和下游自然语言处理模型推理来精确检测对话中断,并获得了69.27的F1分数,显著优于其他已知最佳模型。
Apr, 2024
本研究解决了在实时语音转录中,音频分割对转录质量和延迟的影响这一重要问题。通过评估三种音频分割算法,提出了一种反馈分割算法,实验结果表明该算法在保证延迟减少的同时,改善了转录效果,具有显著的应用潜力。
Sep, 2024
本文解决了自动语音识别领域中语音深度伪造检测的有效性问题。通过利用预训练的WavLM作为前端模型,并结合不同的后端技术,研究展示了一种系统的融合方法以提高检测性能。最终,研究结果表明,所提出的系统在检测精度上具有显著优势。
Sep, 2024
本研究解决了实时转录中音频分割带来的挑战,传统的ASR模型未能有效支持实时处理。通过评估三种音频分割算法(固定间隔、语音活动检测和反馈分割),本研究提出了一种新的反馈算法,能在延迟减少的同时仅略微提高错误率。该研究的发现为实时转录系统的设计提供了优化方案,具有重要的实际应用价值。
Sep, 2024
本研究解决了现有自动语音识别(ASR)基准未能反映现实对话环境复杂性的问题,提出了一个来自TalkBank的多语言对话数据集。研究发现,主流ASR模型在此对话环境下性能显著下降,并揭示了语音不流畅性与词错误率之间的相关性,突显了建立更真实对话基准的必要性。
Sep, 2024