使用全局和局部引力对无限数量的发言人进行在线神经分离
该论文提出了一种基于编码器 - 解码器的吸引因子计算方法,该方法可灵活地生成不同数量的吸引因子,用以支持不同数量的说话人,并利用传统的自我注意力端到端神经说话人分离网络(SA-EEND)来提取讲话嵌入序列和生成说话人活动,实验结果表明,相对于传统的基于聚类的说话人分离模型和端到端模型,该方法分别在模拟的双说话人条件和未知说话人数量的条件下都取得了更好的说话人分离性能。
May, 2020
在本文中,我们提出了一种新的框架,将神经联合抄录模型(EEND)应用于长篇音频,既不需要单独的说话者嵌入,又能够在本地和全局上实现显著的相对 DER 降低以及处理时间的计算复杂性探索。
Jun, 2024
本文提出了一种吸引子模型的端到端系统,通过训练模拟数据集来适应于野外含有更多发言者的情况,并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的,但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果,将分离误差绝对值减少了 23.3%。
Nov, 2022
本文通过对 9 个不同测评的广泛实验,展示了从多标签分类转换到功集多类分类的形式可以显著提高性能(特别是对于重叠语音)和对领域不匹配的鲁棒性,同时消除多标签分类的检测阈值超参数。
Oct, 2023
我们提出了具有辅助网络的 Word 级端到端神经化登记(WEEND),这是一种多任务学习算法,能够在相同的神经架构中同时执行端到端自动语音识别(ASR)和说话人登记。实验结果表明,WEEND 在所有 2 个说话人短格式场景上优于基线系统,并且具有推广到 5 分钟音频长度的能力。尽管 3 个或更多说话人的对话更困难,但我们发现通过足够的领域内训练数据,WEEND 有潜力提供高质量的登记文本。
Sep, 2023
提出了一种基于端到端模型的说话人分割方法,直接进行说话人划分,通过多标签分类解决此任务,同时可用于语音活动检测和重叠语音检测,且在多个数据集上都有显著的表现提升。
Apr, 2021
本文提出基于 Conformer 的端到端神经口头日记(EEND)模型,该模型利用从自动语音识别(ASR)模型导出的语音输入和特征。通过将 ASR 特征与声学特征相结合,采用新的自注意力机制来建立鲁棒的说话人表示,并使用多任务学习来最小化 ASR 特征的分类损失和日记化损失,将其应用于 Switchboard+SRE 数据集上的两个讲话人英语对话中,相对于基线,利用 ASR 特征的多任务学习最有效,在词汇位置信息下将 DER 降低了 20%。
Feb, 2022
本文旨在通过两种新的端到端神经会话分离 (EEND) 模型来处理讲话者活动的重合和联系,分别为基于幂集编码的重合感知 EEND-OLA 和基于两阶段混合系统的 TOLD,结果表明相较于原始 EEND,EEND-OLA 在音频行话数据集上 DER 的表现提升了 14.39%,而使用 SOAP 则提供了另外 19.33%的相对提升,最终 TOLD 在该数据集上取得了新的最佳结果 (10.14%DER)。
Mar, 2023
这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身份,实验证实了该方法在近距离和远场语音场景中的有效性。
Oct, 2023