DiaCorrect: 说话人分离的纠错后端

Sep, 2023

DiaCorrect: Error Correction Back-end For Speaker Diarization

Jiangyu Han, Federico Landini, Johan Rohdin, Mireia Diez, Lukas Burget...

TL;DR我们提出了一种名为 DiaCorrect 的错误修正框架，以简单而有效的方式改进音讯识别系统的输出。该方法受自动语音识别中的错误修正技术的启发。我们的模型包括两个并行的卷积编码器和一个基于转换的解码器。通过利用输入录音和初始系统输出之间的相互作用，DiaCorrect 可以自动校正初始说话者活动以最小化识别错误。在 2 个人的电话数据上的实验表明，所提出的 DiaCorrect 可以有效地改善初始模型的结果。我们的源代码公开可用于此 https URL。

Abstract

In this work, we propose an error correction framework, named diacorrect, to refine the output of a diarization system in a simple yet eff

error correction framework diacorrect diarization system automatic speech recognition speaker activities

发现论文，激发创造

词汇发音者错误更正：利用语言模型进行发音者离话错误更正

本篇论文探讨了使用语言模型的 Speaker diarization second-pass error correction approach 引入词汇信息，可以有效且稳健地提高多个电话数据集上的单词级别 Diarization 错误率（WDER）降低 15％至 30％。

Jun, 2023

CorrectSpeech: 一款全自动的语音纠正和口音减少系统

提出一种全自动的语音纠错和口音减少系统，称为 CorrectSpeech，能够识别、对齐、编辑语音，用于纠正不当用词、发音错误等问题。实验结果验证了该系统的实用性和效果，可用于语音录音的口音校正。

Apr, 2022

2020 年 VoxCeleb 说话人识别大赛微软说话人分离系统

本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统，并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节，其中包括 Res2Net 基于说话人嵌入提取器，基于 conformer 的连续语音分离和泄漏过滤，以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率（DER）为 3.71％，在评估集上的 DER 为 6.23％，并在挑战的辨识赛道上排名第一。

Oct, 2020

AG-LSEC: 音频语境词汇发音错误修正

通过使用现有的 SD 管道中直接从说话者得分中获取的信息，将 LSEC 系统与口音得分加强和基于口音的 LSEC 系统相结合，相对于基于音频的 SD、ASR 系统，在 RT03-CTS、美国英语 Callhome 和 Fisher 数据集上取得了 25-40% 的相对 WDER 降低，相对于 LSEC 系统，取得了 15-25% 的相对改善。

Jun, 2024

一种统一的模型？走向端到端的联合说话人分离与语音识别

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

SoftCorrect: 语音识别的软检测纠错

本文提出了 SoftCorrect, 一种具有软错误检测机制的误差校正方法，该方法通过由专门设计的语言模型产生的一种概率来检测单词是否正确，然后设计了一种受限制的 CTC 损失，仅复制检测到的错误单词，以便解码器集中进行错误单词的更正

Dec, 2022

研究说话人分谱的置信度估计方法

研究论文通过对扬声器判别系统的分析，探讨了生成对下游系统有竞争力且能够在置信度得分最低的部分区间内隔离约 30% 扬声器判别错误的多种方法。

Jun, 2024

2023 年位移式演讲者脱机化挑战的系统描述

这篇论文描述了我们对会话环境中演讲者和语言进行辨认的解决方案，我们使用了语音活动检测、基于 Resnet 架构的 CNN 进行特征提取以及基于谱聚类的特征聚类。尽管未使用印地语进行训练，所描述的算法在数据集的开发和阶段 1 评估部分获得了 DER 分别为 27.1% 和 27.4% 的指标。

Jun, 2024

DiarizationLM：大型语言模型的说话人分离后处理

介绍了 DiarizationLM 框架，利用大型语言模型对说话人辨别系统的输出进行后处理，可用于提高辨别的可读性或降低词辨别错误率。实验证明，通过使用经过微调的 PaLM 2-S 模型，可以在 Fisher 电话对话数据集上降低 WDER 约 25.9％，在 Callhome English 数据集上降低约 31％。

Jan, 2024

VoxConverse Challenge 中 BUT Diarization System 的分析

本文介绍了 BUT 团队在 VoxCeleb 讲者识别挑战的第四个跟踪中针对 VoxConverse 数据集开发的系统，重点关注了 diarization。该系统包括信号预处理、语音活动检测、说话人嵌入提取、初始化凝聚 Hierarchical 聚类后采用贝叶斯隐藏 Markov 模型进行 diarization、基于每个说话人全局嵌入的重新聚类步骤以及重叠语音检测和处理。我们为每个步骤提供比较，并分享我们系统中最相关模块的实现。我们的系统在主要指标（diarization 错误率）方面得分第二，并根据辅助指标（Jaccard 错误率）得分第一。

Oct, 2020