实时语音中断分析：从云端到客户端部署

Oct, 2022

实时语音中断分析：从云端到客户端部署

Real-time Speech Interruption Analysis: From Cloud to Client Deployment

Quchen Fu, Szu-Wei Fu, Yaran Fan, Yu Wu, Zhuo Chen...

TL;DR本文介绍一种基于远程会议中声音打断检测的模型，通过大规模训练和微调等技术将True Positive Rate提高，复杂度和模型体积被极大地压缩，而且估算了环境影响，适用于基于Transformer的大型模型。

Abstract

Meetings are an essential form of communication for all types of organizations, and remote collaboration systems have been much more widely used since the COVID-19 pandemic. One major issue with remote meetings is that it is challenging for remote participants to interrupt and speak. W

发现论文，激发创造

连续语音分离：数据集与分析

这篇论文通过建立新的LibriCSS数据集并制定一套Kaldi基础的ASR评估方法，对连续语音分离算法进行了评估和研究，以解决自然对话中语音分离的问题。

Jan, 2020

预训练的Wav2Vec 2.0在领域转移语音识别方面的表现如何？对空中交通管制通讯进行了广泛的基准测试

本研究旨在探讨在预训练和fine-tuning阶段数据属性存在实质性差异的情况下，在空中交通管制数据上分析Wav2Vec 2.0和XLS-R模型的鲁棒性，结果显示，通过只使用已标注数据的较小部分来对E2E声学模型进行fine-tuning，相对于基于混合式ASR基线的声学模型，可以在几个开源且具有挑战性的ATC数据库中实现20％至40％的相对字错率降低，并分析了一种ATC数据集中的低资源和性别偏见的情况。

Mar, 2022

在Switchboard基准测试上朝向零Oracle词错误率

该研究探讨了在自动语音识别（ASR）研究中备受关注的‘Switchboard benchmark’数据集的一些实用考虑，并提出了修正参考转录和改变评分方法的更详细和可重复的方案。通过这种方案，甚至商业ASR系统的WER得分也可以低于5％，研究系统的表现记录下降至2.3％。此外，还探索了使用标准化评分工具计算oracle WER的方法，并比较了短语备选项表示和utterance/word-level的结构。最终，使用密集网络和添加字典外单词的方法实现了0.18％的oracle WER。

Jun, 2022

时间瓶颈：为什么定时和重叠对于对话界面、语音识别和对话系统至关重要

对话系统中的定时关键，6种语言的自然对话数据的词错误率仍然糟糕，重叠问题是一个关键挑战，对话词语的识别受到影响，进而对下游意图识别产生严重后果。

Jul, 2023

NOTSOFAR-1 挑战：远程会议转录的新数据集、基准和任务

引入首个远场音频记录的自然办公室对话者（“NOTSOFAR-1”）挑战，共带来数据集和基准系统。该挑战专注于远距离发言人日记和远场会议情景下的自动语音识别（DASR），并推出两个新的数据集：一是315个会议的基准测试数据集，每个会议平均约6分钟，捕捉了广泛的真实世界声学环境和对话动态；二是1000小时的模拟训练数据集，以增强真实世界泛化的真实性，并融合了15000个真实声学传递函数。该研究聚焦于单设备DASR，在多通道设备的情况下具有相同已知的几何形状，旨在推动远距离对话语音识别领域的研究，为解锁数据驱动方法的潜力提供关键资源。

Jan, 2024

多模态环境下对话中断检测

实时检测对话中的中断对于会话型人工智能系统至关重要，因为它能采取纠正措施以成功完成任务。本文介绍了一种多模态上下文对话中断模型（MultConDB），该模型通过在实时转录文本上进行音频输入处理和下游自然语言处理模型推理来精确检测对话中断，并获得了69.27的F1分数，显著优于其他已知最佳模型。

Apr, 2024

基于端到端自动语音识别模型的实时转录评估

本研究解决了在实时语音转录中，音频分割对转录质量和延迟的影响这一重要问题。通过评估三种音频分割算法，提出了一种反馈分割算法，实验结果表明该算法在保证延迟减少的同时，改善了转录效果，具有显著的应用潜力。

Sep, 2024

探索WavLM后端在语音伪造和深度伪造检测中的应用

本文解决了自动语音识别领域中语音深度伪造检测的有效性问题。通过利用预训练的WavLM作为前端模型，并结合不同的后端技术，研究展示了一种系统的融合方法以提高检测性能。最终，研究结果表明，所提出的系统在检测精度上具有显著优势。

Sep, 2024

基于端到端ASR模型的实时转录评估

本研究解决了实时转录中音频分割带来的挑战，传统的ASR模型未能有效支持实时处理。通过评估三种音频分割算法（固定间隔、语音活动检测和反馈分割），本研究提出了一种新的反馈算法，能在延迟减少的同时仅略微提高错误率。该研究的发现为实时转录系统的设计提供了优化方案，具有重要的实际应用价值。

Sep, 2024

自动语音识别基准测试：对更具代表性的对话数据集的需求

本研究解决了现有自动语音识别（ASR）基准未能反映现实对话环境复杂性的问题，提出了一个来自TalkBank的多语言对话数据集。研究发现，主流ASR模型在此对话环境下性能显著下降，并揭示了语音不流畅性与词错误率之间的相关性，突显了建立更真实对话基准的必要性。

Sep, 2024