针对目标发言者的语音活动检测：晚宴场景下多说话人对话系统的一种新方法

May, 2020

针对目标发言者的语音活动检测：晚宴场景下多说话人对话系统的一种新方法

Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario

Ivan Medennikov, Maxim Korenevsky, Tatiana Prisyach, Yuri Khokhlov, Mariya Korenevskaya...

TL;DR提出一种新的 TS-VAD 方法，通过直接预测每个时间帧上每个演讲者的活动来解决重叠说话问题，并使用 i-vectors 作为输入，并扩展到多麦克风情况，并研究了预测演讲者活动概率的后处理策略。在 CHiME6 数据上的实验证明，TS-VAD 取得了优于基于 x-vector 的基准系统 30% 以上的 DER 绝对值的最新结果。

Abstract

speaker diarization for real-life scenarios is an extremely challenging problem. Widely used clustering-based diarization approaches perform rather poorly in such conditions, mainly due to the limited ability to handle overlapping speech. We propose a novel Target-Speaker →

speaker diarization voice activity detection i-vectors multi-microphone chime-6

发现论文，激发创造

基于 Transformer 的目标说话人语音活动检测及其与端到端神经分离的集成

本文提出了使用变长输入张量的基于 Transformer 的目标说话人语音活动检测（TS-VAD）的说话人分离模型。Transformer 层被应用于说话者维度，以使模型输出对提供给 TS-VAD 模型的说话者资料的顺序不敏感。同时，时间方面的连续层也被加入其中，以便捕捉输入语音信号的时间和跨说话者之间的相关性。实验结果显示，使用跨说话者建模的 Transformer 能够将 TS-VAD 的错误率降低 11.3％，在 VoxConverse 数据集上取得 4.57％的最新最佳效果；也将 SOTA DER 减少了 6.9％。

Aug, 2022

SVVAD：用于说话人验证的个人语音活动检测

我们提出了一种基于说话人验证的语音活动检测框架，实现了无标签训练方法并使用三元损失来适应 SV 中最具信息的声学特征。结果表明，相对于传统方案，该框架在混合说话人的条件下明显提高了等误差率，并揭示了人类判断中不同语音部分的重要性。

May, 2023

跨模态监督学习视频中的活动发言者检测

本文利用音频监督视频中活跃讲话者检测的学习，通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类，学习人特定的模型以及在线适应性的改进，利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习，不需要监督，将知识从一种模式传递到另一种模式，建立了自学习活跃讲话者检测系统。

Mar, 2016

USTC-Ximalaya 系统在 ICASSP2022 多通道多方会议转录（M2MeT）挑战中的应用

在多频道多方会议转录挑战中，我们提出了两种改进目标说话人语音活动检测技术，能够处理高重叠率，重音和嘈杂环境中的多人对话，并展示了我们的系统与经典聚类算法相比，在 ALIMEETING 语料库中将 DER 降低了长达 66.55/60.59%。

Feb, 2022

个性化语音活动检测系统的比较分析：评估现实世界的有效性

对个性化声活性检测（PVAD）系统进行了比较分析，评估其在真实世界中的有效性，并通过包括帧级误差率、话语级错误率、检测延迟和准确性以及用户级分析在内的各种性能指标提供全面的评估方法，从而深入探究各种 PVAD 变体的优势和局限性。

Jun, 2024

基于轻量级神经网络的实时语音活动检测

该研究提出了一种轻量级实时的神经网络模型 MagicNet，利用 1-D 卷积和 GRU，并且不依赖未来特征作为输入，在综合测试数据集上与两种最先进的算法进行比较，评估结果表明 MagicNet 能够在较少的参数成本下实现更好的性能和鲁棒性。

May, 2024

面向短语对话扬声器辨别挑战的 TSUP 扬声器分离系统

该论文描述了 TSUP 团队在 ISCSLP 2022 CSSD 挑战赛中的参赛表现和关键研究成果，侧重于短话语音者分离与新的评价指标 CDER。SC 方法是最受欢迎的方法并且所有的三种语音者分离系统都需要调参，最后 SC 系统的表现居于第三名。

Oct, 2022

基于圆谐特征的多麦克风会议自动语音分割

本文提出了一种在远距离语音场景下解决语音分割任务，包括 VAD、OSD 和 SCD 的通用框架，使用 CH-DOA 提取的空间特征与标准声学特征相结合，实验证明可以提高分割效果，并且在停用麦克风的情况下仍然具有鲁棒性。

Jun, 2023

MAAS: 多模态分配用于活跃说话人检测

本文提出了将图形数据结构应用于音频和视觉信号融合的新方法，将多模式的音视频特征分配给先前检测到的语音事件，实现了 88.8％的 AV-ActiveSpeaker 数据集性能最优。

Jan, 2021

端到端的说话人分割，针对重叠感知的重分割

提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Apr, 2021