利用语义信息提升说话者映射：联合配对约束传播

Sep, 2023

利用语义信息提升说话者映射：联合配对约束传播

Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation

Luyao Cheng, Siqi Zheng, Qinglin Zhang, Hui Wang, Yafeng Chen...

TL;DR本文提出了一种利用语言模型有效利用语义信息的基于聚类的说话人分离系统，首先通过语音理解模块提取说话人相关的语义信息，然后利用这些信息构建配对约束，最后通过将约束整合到说话人分离流程中来提高整个系统的性能，在公共数据集上的大量实验证明了我们提出方法在声学特征的说话人分离系统上的一致优越性。

Abstract

speaker diarization has gained considerable attention within speech processing research community. Mainstream speaker diarization rely primarily on speakers' voice characteristics extracted from →

speaker diarization semantic information acoustic signals language models clustering-based systems

发现论文，激发创造

探索口语理解中有关说话人信息以改进说话人分离

本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法，提出了两个子任务（对话检测和发言者切换检测）来有效地从对话语义中提取讲话者信息，并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明，我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。

May, 2023

基于时空贝叶斯融合的音视频说话人分离

本文介绍了一种音视频 “位置时间标记” 模型，其中多人视觉跟踪与多重语音源定位相结合，通过一种音视频融合方法对话音频信号进行了分离，从而能够同时处理多人的语音信号。该模型在多方交互的情况下处理多人同时发出的语音信号，解决了多人语音辨别问题。

Mar, 2016

在端到端神经语音分离中利用说话者嵌入识别双方讲话的情景

本研究通过将发言者信息嵌入到端到端系统中，提高了发言者辨识能力，并保持了处理语音重叠的优势，通过多种方法将这些嵌入与声学特征相结合。同时，对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估，结果表明相对于基准端到端模型，发现有了显著的降低对话错误率，相对提高了 10.78%。

Jul, 2024

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

基于双模态语义相似性的弱监督音频分离

通过在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离是一个长期存在的挑战。本文提出了一个能够改进现有无监督框架以在目标模态（即音频）中使用条件模态（即语言）中的易于分离的相应信号分离单源信号的通用双模分离框架。我们的实验证明，如果我们可以访问两个模态之间（即 CLAP）的预训练联合嵌入模型，这是可以实现的。另外，我们还在两个基本场景中将我们的框架纳入进行了改进，通过减小训练样本和测试样本之间的分布差异，我们的方法显著提高了纯无监督基准的性能，并且在信噪比（SDR）方面可以实现 71％的提升，达到了有监督学习性能的 97.5％。我们还展示了通过我们提出的弱监督框架扩充有监督学习本身，可以进一步提高性能，使其成为强大的半监督音频分离框架。

Apr, 2024

无监督说话人分离：对语言，重叠以及参数调整不敏感

本文探讨了一种不依赖于语种特定组件的无监督的演讲者分离技术，该算法具有覆盖感知功能，不需要有关演讲者数量的信息，并在播客数据上表现出了 79％的纯度得分改进（34％的 F - 分数）。

Jul, 2022

分布式物联网网络中使用联邦学习的无监督说话人分离

该论文提出了一种计算效率高且分布式的网络 IoT 音频设备的说话人分离框架。通过提出的联邦学习模型，可以识别对话中的参与者，无需大型音频数据库进行训练。通过余弦相似度的无监督在线更新机制，解决了联邦学习模型的问题。此外，该论文提出的分离系统通过使用 Hotelling 的 t 平方统计和贝叶斯信息准则的无监督分割技术解决了说话人变化检测问题。该方法通过检测到的准静音来偏置说话人变化检测，从而减少漏检和误检率之间的权衡。通过无监督的语音片段聚类，降低了逐帧说话人识别的计算开销。实验结果表明，该训练方法在非独立同分布的语音数据中具有良好的效果。在分割阶段，该方法显著减少了误检和漏检，并降低了计算开销。准确性提高和计算成本降低使该机制适用于分布式 IoT 音频网络中的实时说话人分离。

Apr, 2024

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

说话人分离的综述：深度学习的最新进展

本文综述了演讲者分离技术的历史发展，并重点介绍了基于深度学习的新进展，以及演讲者分离系统与语音识别应用之间的相互作用。我们认为，这是一篇有价值的综述工作，为进一步提高演讲者分离效率提供了有力的支持。

Jan, 2021

演讲者信息可指引模型更好地应用归纳偏好：以代码交替预测为例的案例研究

通过在受控的、受过教育的方式下丰富模型的说话人信息，可以指导模型捕捉相关的归纳偏差。在预测英语 - 西班牙双语对话中的代码切换点的任务中，加入基于社会语言学的说话者特征可以显著提高准确性。此外，我们发现通过将有影响力的短语添加到输入中，基于说话者的语言模型可以学习有用且可解释的语言信息。这是我们首次将说话人信息纳入神经模型进行代码切换，更进一步地，朝着开发使用受控方式的透明个性化模型迈出了一步。

Mar, 2022