端到端的说话人分割,针对重叠感知的重分割
本文旨在通过两种新的端到端神经会话分离 (EEND) 模型来处理讲话者活动的重合和联系,分别为基于幂集编码的重合感知 EEND-OLA 和基于两阶段混合系统的 TOLD,结果表明相较于原始 EEND,EEND-OLA 在音频行话数据集上 DER 的表现提升了 14.39%,而使用 SOAP 则提供了另外 19.33%的相对提升,最终 TOLD 在该数据集上取得了新的最佳结果 (10.14%DER)。
Mar, 2023
本研究通过将发言者信息嵌入到端到端系统中,提高了发言者辨识能力,并保持了处理语音重叠的优势,通过多种方法将这些嵌入与声学特征相结合。同时,对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估,结果表明相对于基准端到端模型,发现有了显著的降低对话错误率,相对提高了 10.78%。
Jul, 2024
该研究论文提出了一种新的模型,结合语音识别和说话人分离的任务,通过引入说话人标签和说话人掩码分支,实现了多说话人重叠语音的识别和说话人分离。实验证明了该方法在复杂的多说话人场景中有效地提高了说话人分离的准确性。
Dec, 2023
本文提出了一种吸引子模型的端到端系统,通过训练模拟数据集来适应于野外含有更多发言者的情况,并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的,但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果,将分离误差绝对值减少了 23.3%。
Nov, 2022
本文提出基于 Conformer 的端到端神经口头日记(EEND)模型,该模型利用从自动语音识别(ASR)模型导出的语音输入和特征。通过将 ASR 特征与声学特征相结合,采用新的自注意力机制来建立鲁棒的说话人表示,并使用多任务学习来最小化 ASR 特征的分类损失和日记化损失,将其应用于 Switchboard+SRE 数据集上的两个讲话人英语对话中,相对于基线,利用 ASR 特征的多任务学习最有效,在词汇位置信息下将 DER 降低了 20%。
Feb, 2022
本文通过对 9 个不同测评的广泛实验,展示了从多标签分类转换到功集多类分类的形式可以显著提高性能(特别是对于重叠语音)和对领域不匹配的鲁棒性,同时消除多标签分类的检测阈值超参数。
Oct, 2023
使用端到端的自动语音识别模型代替传统的语音活动检测器 (VAD),在处理长的音频片段时,不仅能够使用更好的声学特征进行分割决策,还可以使用文本解码得到的语义特征,从而有更好的性能表现。在 30 分钟内的真实世界音频实验中,相比于使用 VAD,我们展示了在最先进的 Conformer RNN-T 模型上 8.5% 的相对 WER 改进和 250 ms 的额外分割延迟减少。
Apr, 2022
我们提出了具有辅助网络的 Word 级端到端神经化登记(WEEND),这是一种多任务学习算法,能够在相同的神经架构中同时执行端到端自动语音识别(ASR)和说话人登记。实验结果表明,WEEND 在所有 2 个说话人短格式场景上优于基线系统,并且具有推广到 5 分钟音频长度的能力。尽管 3 个或更多说话人的对话更困难,但我们发现通过足够的领域内训练数据,WEEND 有潜力提供高质量的登记文本。
Sep, 2023