利用语义信息提升说话者映射:联合配对约束传播
本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法,提出了两个子任务(对话检测和发言者切换检测)来有效地从对话语义中提取讲话者信息,并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明,我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。
May, 2023
本文介绍了一种音视频 “位置时间标记” 模型,其中多人视觉跟踪与多重语音源定位相结合,通过一种音视频融合方法对话音频信号进行了分离,从而能够同时处理多人的语音信号。该模型在多方交互的情况下处理多人同时发出的语音信号,解决了多人语音辨别问题。
Mar, 2016
本研究通过将发言者信息嵌入到端到端系统中,提高了发言者辨识能力,并保持了处理语音重叠的优势,通过多种方法将这些嵌入与声学特征相结合。同时,对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估,结果表明相对于基准端到端模型,发现有了显著的降低对话错误率,相对提高了 10.78%。
Jul, 2024
提出自监督的音视频同步学习方法,通过引入动态三元组损失和多项式损失函数来解决说话人分离问题,结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率,并且介绍了一个新的大规模中文音视频语料库。
Feb, 2020
通过在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离是一个长期存在的挑战。本文提出了一个能够改进现有无监督框架以在目标模态(即音频)中使用条件模态(即语言)中的易于分离的相应信号分离单源信号的通用双模分离框架。我们的实验证明,如果我们可以访问两个模态之间(即 CLAP)的预训练联合嵌入模型,这是可以实现的。另外,我们还在两个基本场景中将我们的框架纳入进行了改进,通过减小训练样本和测试样本之间的分布差异,我们的方法显著提高了纯无监督基准的性能,并且在信噪比(SDR)方面可以实现 71%的提升,达到了有监督学习性能的 97.5%。我们还展示了通过我们提出的弱监督框架扩充有监督学习本身,可以进一步提高性能,使其成为强大的半监督音频分离框架。
Apr, 2024
本文探讨了一种不依赖于语种特定组件的无监督的演讲者分离技术,该算法具有覆盖感知功能,不需要有关演讲者数量的信息, 并在播客数据上表现出了 79%的纯度得分改进(34%的 F - 分数)。
Jul, 2022
该论文提出了一种计算效率高且分布式的网络 IoT 音频设备的说话人分离框架。通过提出的联邦学习模型,可以识别对话中的参与者,无需大型音频数据库进行训练。通过余弦相似度的无监督在线更新机制,解决了联邦学习模型的问题。此外,该论文提出的分离系统通过使用 Hotelling 的 t 平方统计和贝叶斯信息准则的无监督分割技术解决了说话人变化检测问题。该方法通过检测到的准静音来偏置说话人变化检测,从而减少漏检和误检率之间的权衡。通过无监督的语音片段聚类,降低了逐帧说话人识别的计算开销。实验结果表明,该训练方法在非独立同分布的语音数据中具有良好的效果。在分割阶段,该方法显著减少了误检和漏检,并降低了计算开销。准确性提高和计算成本降低使该机制适用于分布式 IoT 音频网络中的实时说话人分离。
Apr, 2024
本文综述了演讲者分离技术的历史发展,并重点介绍了基于深度学习的新进展,以及演讲者分离系统与语音识别应用之间的相互作用。我们认为,这是一篇有价值的综述工作,为进一步提高演讲者分离效率提供了有力的支持。
Jan, 2021
通过在受控的、受过教育的方式下丰富模型的说话人信息,可以指导模型捕捉相关的归纳偏差。在预测英语 - 西班牙双语对话中的代码切换点的任务中,加入基于社会语言学的说话者特征可以显著提高准确性。此外,我们发现通过将有影响力的短语添加到输入中,基于说话者的语言模型可以学习有用且可解释的语言信息。这是我们首次将说话人信息纳入神经模型进行代码切换,更进一步地,朝着开发使用受控方式的透明个性化模型迈出了一步。
Mar, 2022