实时说话人分离的时间自训练

Aug, 2022

Chronological Self-Training for Real-Time Speaker Diarization

Dirk Padfield, Daniel J. Liebling

TL;DR该研究使用时间排序的自我训练方法，证明只使用 1 秒的样本训练可以将语音流分为不同的讲话者，并在多种语言中将错误率降低至 10% 以下。

Abstract

diarization partitions an audio stream into segments based on the voices of the speakers. Real-time diarization systems that include an en

diarization audio stream real-time systems self-training chronological

发现论文，激发创造

常见在线说话者对话方法综述

在线说话者辨识提供了 “谁何时说话” 的答案，可用于完成音频转录和后续处理步骤；本文概述了在线说话者辨识的历史、训练与评估数据集，详细讨论了在线辨识方法与系统，并提出了该领域需要未来研究解决的挑战。

Jun, 2024

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

在线音视频会议转录技术进展

本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统，该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时，还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法，提供了一个名为 SRD 的会议转录框架，并使用 11 名与会者的会议录音的实验结果表明，连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1％。当有完整的与会者名单时，字词错误率与演讲者归属字词错误率之间的差异仅为 1.0％，表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时，差异略有增加，为 1.6%。

Dec, 2019

构建大规模性别与年龄平衡的说话人语料库的半自动方法：说话人辨识与日程管理的实用性

本研究提出了一种半自动化的方法，用于创建一个按照 32 个类别（2 种性别、4 个年龄范围和 4 个录制时期）平衡了发言人年龄、性别和录制时期的历时语料库。该方法通过自动处理管道，包括语音检测、背景音乐和重叠语音去除以及说话者分离，大大减少了人工处理，显示出了创建大型目标说话者语料库的潜力。

Apr, 2024

MiniVox 中作为全在线学习问题的说话人分离

本研究提出了一种新型的机器学习框架，可以在完全在线学习的情况下实现实时的多说话者辨识和识别，同时通过半监督和自监督学习方法解决了在线学习中出现的奖励呈现问题，并提供了一个可以交互处理冷启动问题的可行的基于网络的识别系统。

Jun, 2020

研究说话人分谱的置信度估计方法

研究论文通过对扬声器判别系统的分析，探讨了生成对下游系统有竞争力且能够在置信度得分最低的部分区间内隔离约 30% 扬声器判别错误的多种方法。

Jun, 2024

野外演讲者日志检测

本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中，从而显著减少注释视频所需的时间。通过这种方式，研究人员成功地发布了一个名为 VoxConverse 的大规模分离数据集。

Jul, 2020

说话人分离的综述：深度学习的最新进展

本文综述了演讲者分离技术的历史发展，并重点介绍了基于深度学习的新进展，以及演讲者分离系统与语音识别应用之间的相互作用。我们认为，这是一篇有价值的综述工作，为进一步提高演讲者分离效率提供了有力的支持。

Jan, 2021

剧本音视频的讲话人分离

利用制作脚本为演讲人辨别任务提取伪标记数据的半监督方法在 66 个节目测试集上相对于两个非监督基准模型显示出了 51.7% 的改进。

Aug, 2023

一种用于在线发言人分离的强化学习框架

该研究提出了一种基于强化学习的机器学习框架，用于实时的多扬声器识别和分割，并能应对有限的训练数据和分布环境的挑战。

Feb, 2023