动态尺度加权多尺度说话人分离

Mar, 2022

Multi-scale Speaker Diarization with Dynamic Scale Weighting

Tae Jin Park, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg

TL;DR本研究提出基于多尺度解码器的高级多尺度语者分离系统，通过多尺度聚类初始化估计讲话人数和每个尺度的平均发言者表示向量，使用 1-D 卷积神经网络动态决定每个时间步长上每个尺度的重要性，抑制了时间分辨率和发言者表示保真度之间的平衡问题。该系统可以估计存在的说话人数和在 CALLHOME 和 AMI MixHeadset 数据集上实现了业界领先的性能，分别为 3.92% 和 1.05% 的对白错误率。

Abstract

speaker diarization systems are challenged by a trade-off between the temporal resolution and the fidelity of the speaker representation. By obtaining a superior temporal resolution with an enhanced accuracy, a multi-sc

speaker diarization multi-scale approach clustering 1-d convolutional neural networks diarization performance

发现论文，激发创造

2020 年 VoxCeleb 说话人识别大赛微软说话人分离系统

本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统，并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节，其中包括 Res2Net 基于说话人嵌入提取器，基于 conformer 的连续语音分离和泄漏过滤，以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率（DER）为 3.71％，在评估集上的 DER 为 6.23％，并在挑战的辨识赛道上排名第一。

Oct, 2020

走向真实场景的端到端演讲者分离

本文提出了一种吸引子模型的端到端系统，通过训练模拟数据集来适应于野外含有更多发言者的情况，并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的，但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果，将分离误差绝对值减少了 23.3%。

Nov, 2022

一种全面的多尺度方法用于说话者外貌生成中的语音和动态同步

利用深度生成模型和语音输入信号来为静止的面部图像添加动画是当前的研究热点，本文提出了一种多尺度音频视觉同步损失和多尺度自回归生成对抗网络来更好地处理语音和头部以及嘴唇之间的短期和长期关联，通过在面部关键点域中训练多模态输入金字塔上的同步模型堆栈，再结合多尺度生成网络以在不同时间尺度上生成音频对齐的动画，实验结果表明在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。

Jul, 2023

研究说话人分谱的置信度估计方法

研究论文通过对扬声器判别系统的分析，探讨了生成对下游系统有竞争力且能够在置信度得分最低的部分区间内隔离约 30% 扬声器判别错误的多种方法。

Jun, 2024

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

在端到端神经语音分离中利用说话者嵌入识别双方讲话的情景

本研究通过将发言者信息嵌入到端到端系统中，提高了发言者辨识能力，并保持了处理语音重叠的优势，通过多种方法将这些嵌入与声学特征相结合。同时，对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估，结果表明相对于基准端到端模型，发现有了显著的降低对话错误率，相对提高了 10.78%。

Jul, 2024

2023 年位移式演讲者脱机化挑战的系统描述

这篇论文描述了我们对会话环境中演讲者和语言进行辨认的解决方案，我们使用了语音活动检测、基于 Resnet 架构的 CNN 进行特征提取以及基于谱聚类的特征聚类。尽管未使用印地语进行训练，所描述的算法在数据集的开发和阶段 1 评估部分获得了 DER 分别为 27.1% 和 27.4% 的指标。

Jun, 2024

完全监督的说话人分离

本文提出了一种全监督的说话人分离方法，称为无限交错状态循环神经网络（UIS-RNN），通过 RNN 建模不同说话人，运用了 ddCRP 解决未知说话人数量问题，并实现在线分离。在 NIST SRE 2000 CALLHOME 上，其检测率为 7.6%，优于现有最先进的基于谱聚类的分离方法。

Oct, 2018

多语言 ASR 的协商扩展

本文研究了基于 Transformer 模型的多语言自动语音识别模型，提出了一种多语言的反推算法用于提高模型的识别能力，实验结果显示，相较于单语言算法，该算法的识别误差平均降低了 4%，在某些语言上甚至有 14% 的提升，且该算法可以进行并行化处理。

Oct, 2022

SpEx: 多尺度时域说话人提取网络

通过提出 SpEx 网络并采用多尺度嵌入系数，将多说话声音信号转换成特定发言人的声音信号，该网络在信号畸变比（SDR）、比例尺不变信号畸变比（SI-SDR）和语音质量评估（PESQ）等方面均有显著改进。

Apr, 2020