2023 年位移式演讲者脱机化挑战的系统描述

Jun, 2024

2023 年位移式演讲者脱机化挑战的系统描述

System Description for the Displace Speaker Diarization Challenge 2023

Ali Aliyev

TL;DR这篇论文描述了我们对会话环境中演讲者和语言进行辨认的解决方案，我们使用了语音活动检测、基于 Resnet 架构的 CNN 进行特征提取以及基于谱聚类的特征聚类。尽管未使用印地语进行训练，所描述的算法在数据集的开发和阶段 1 评估部分获得了 DER 分别为 27.1% 和 27.4% 的指标。

Abstract

This paper describes our solution for the diarization of speaker and language in →

diarization speaker language conversational environments challenge

发现论文，激发创造

第二届 DISPLACE 挑战赛：对话环境中的说话人和语言辨别

DIarization of SPeaker and LAnguage in Conversational Environments (DISPLACE) 2024 challenge involves tasks of speaker diarization (SD), language diarization (LD), and automatic speech recognition (ASR) on a multilingual conversational speech dataset, with details of the dataset, baseline systems, and performance comparison with DISPLACE-2023.

Jun, 2024

DISPLACE 挑战 2023 摘要 -- 对话环境中的发音者和语言判别

在多语言社会中，非正式对话经常涉及多种语言的混合使用。DISPLACE 挑战对多语言和说话者鉴别技术进行了评估和基准测试，其中 Track-1 专注于多语境的说话者鉴别，而 Track-2 则针对多说话者情境的语言鉴别。该论文详述了挑战、数据集、任务和基准系统，并提供了顶尖系统的概述，强调了在这些对话中系统在普遍商业应用之前需要克服的主要挑战。

Nov, 2023

2020 年 VoxCeleb 说话人识别大赛微软说话人分离系统

本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统，并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节，其中包括 Res2Net 基于说话人嵌入提取器，基于 conformer 的连续语音分离和泄漏过滤，以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率（DER）为 3.71％，在评估集上的 DER 为 6.23％，并在挑战的辨识赛道上排名第一。

Oct, 2020

面向短语对话扬声器辨别挑战的 TSUP 扬声器分离系统

该论文描述了 TSUP 团队在 ISCSLP 2022 CSSD 挑战赛中的参赛表现和关键研究成果，侧重于短话语音者分离与新的评价指标 CDER。SC 方法是最受欢迎的方法并且所有的三种语音者分离系统都需要调参，最后 SC 系统的表现居于第三名。

Oct, 2022

2022 年 Ego4D 挑战赛中英特尔实验室：音视频对话更优秀的基线

报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法，该方法通过对模型的训练计划进行修改改进了声音活动的检测性能，证明了采用现成的语音活动检测模型可以有效地消除误报，而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER，远远优于所有基线，在比赛中取得了第一名。

Oct, 2022

VoxConverse Challenge 中 BUT Diarization System 的分析

本文介绍了 BUT 团队在 VoxCeleb 讲者识别挑战的第四个跟踪中针对 VoxConverse 数据集开发的系统，重点关注了 diarization。该系统包括信号预处理、语音活动检测、说话人嵌入提取、初始化凝聚 Hierarchical 聚类后采用贝叶斯隐藏 Markov 模型进行 diarization、基于每个说话人全局嵌入的重新聚类步骤以及重叠语音检测和处理。我们为每个步骤提供比较，并分享我们系统中最相关模块的实现。我们的系统在主要指标（diarization 错误率）方面得分第二，并根据辅助指标（Jaccard 错误率）得分第一。

Oct, 2020

利用人工神经网络识别持续孟加拉语言中的说话者划分

通过应用连续的孟加拉语音，我们提出了一种方法来确定某个地区说话者的地理身份，使用了 Mel 频率倒谱系数（MFCC）和 Delta 特征在人工神经网络上对说话者进行分类，并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据，并获得了 85.44% 的最高准确率。

Apr, 2024

2022 Newsbridge-Telecom SudParis VoxCeleb 说话人识别挑战系统描述

该研究论文讨论了 VoxCeleb Speaker Recognition Challenge 2022 中讲者辨识赛道中的语音活动检测问题，提出了基于多流方法和熵决策协议的语音活动检测模型，并取得了接近最新成果的效果。

Jan, 2023

2022 远场说话人验证挑战赛的 SpeakIn 说话人验证系统

本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022（FFSVC2022）任务一和任务二的讲话者验证（SV）系统。我们采用基于 ResNet 和 RepVGG 的架构，采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集，创新性地提出了分阶段迁移学习方法来提高模型性能，解决了领域不匹配问题，并在两个挑战任务中表现出优异的性能。

Sep, 2022

说话人分离的综述：深度学习的最新进展

本文综述了演讲者分离技术的历史发展，并重点介绍了基于深度学习的新进展，以及演讲者分离系统与语音识别应用之间的相互作用。我们认为，这是一篇有价值的综述工作，为进一步提高演讲者分离效率提供了有力的支持。

Jan, 2021