探索口语理解中有关说话人信息以改进说话人分离

ACLMay, 2023

探索口语理解中有关说话人信息以改进说话人分离

Exploring Speaker-Related Information in Spoken Language Understanding for Better Speaker Diarization

Luyao Cheng, Siqi Zheng, Zhang Qinglin, Hui Wang, Yafeng Chen...

TL;DR本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法，提出了两个子任务（对话检测和发言者切换检测）来有效地从对话语义中提取讲话者信息，并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明，我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。

Abstract

speaker diarization(SD) is a classic task in speech processing and is crucial in multi-party scenarios such as meetings and conversations. Current mainstream speaker diarization approaches consider acoustic infor

speaker diarization semantic content dialogue detection speaker-turn detection acoustic and semantic information

发现论文，激发创造

利用语义信息提升说话者映射：联合配对约束传播

本文提出了一种利用语言模型有效利用语义信息的基于聚类的说话人分离系统，首先通过语音理解模块提取说话人相关的语义信息，然后利用这些信息构建配对约束，最后通过将约束整合到说话人分离流程中来提高整个系统的性能，在公共数据集上的大量实验证明了我们提出方法在声学特征的说话人分离系统上的一致优越性。

Sep, 2023

说话人分离的综述：深度学习的最新进展

本文综述了演讲者分离技术的历史发展，并重点介绍了基于深度学习的新进展，以及演讲者分离系统与语音识别应用之间的相互作用。我们认为，这是一篇有价值的综述工作，为进一步提高演讲者分离效率提供了有力的支持。

Jan, 2021

词汇发音者错误更正：利用语言模型进行发音者离话错误更正

本篇论文探讨了使用语言模型的 Speaker diarization second-pass error correction approach 引入词汇信息，可以有效且稳健地提高多个电话数据集上的单词级别 Diarization 错误率（WDER）降低 15％至 30％。

Jun, 2023

基于时空贝叶斯融合的音视频说话人分离

本文介绍了一种音视频 “位置时间标记” 模型，其中多人视觉跟踪与多重语音源定位相结合，通过一种音视频融合方法对话音频信号进行了分离，从而能够同时处理多人的语音信号。该模型在多方交互的情况下处理多人同时发出的语音信号，解决了多人语音辨别问题。

Mar, 2016

一种统一的模型？走向端到端的联合说话人分离与语音识别

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

常见在线说话者对话方法综述

在线说话者辨识提供了 “谁何时说话” 的答案，可用于完成音频转录和后续处理步骤；本文概述了在线说话者辨识的历史、训练与评估数据集，详细讨论了在线辨识方法与系统，并提出了该领域需要未来研究解决的挑战。

Jun, 2024

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

在线音视频会议转录技术进展

本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统，该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时，还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法，提供了一个名为 SRD 的会议转录框架，并使用 11 名与会者的会议录音的实验结果表明，连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1％。当有完整的与会者名单时，字词错误率与演讲者归属字词错误率之间的差异仅为 1.0％，表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时，差异略有增加，为 1.6%。

Dec, 2019

音频对齐：使用高效多序列对齐评估和可视化基于文本的日识别（扩展版）

本文提出了一种新颖的评估方法，用于基于文本的发言人分离，克服了传统度量标准在文本中不考虑任何上下文信息的局限性。我们提出了两个新的度量标准，即基于文本的分离错误率和分离 F1 值，通过对参考和假设转录中的标记进行对齐，进行话语和单词级别的评估。我们的度量标准涵盖了更多类型的错误，相比现有的度量标准，可以进行更全面的发言人分离分析。为了对齐标记，引入了一种多序列对齐算法，支持参考序列中的多个序列，同时使用动态规划处理假设中的高维对齐。我们的工作打包为两个工具，align4d 提供用于对齐算法的 API，TranscribeView 用于可视化和评估发言人分离错误，这可以极大地帮助创建高质量的数据，促进对话系统的发展。

Sep, 2023

现实世界会议的音视频发言人分离技术

该论文利用周围视视频和单通道或多通道音频生成强大的发言人识别输出，在真实世界会议中展示出优异的定量和定性性能，并探究了在可用多通道音频的情况下，通过集束成形和视频协同使用，进一步提高性能的方法。

Jun, 2019