音频对齐：使用高效多序列对齐评估和可视化基于文本的日识别（扩展版）

Sep, 2023

音频对齐：使用高效多序列对齐评估和可视化基于文本的日识别（扩展版）

Aligning Speakers: Evaluating and Visualizing Text-based Diarization Using Efficient Multiple Sequence Alignment (Extended Version)

PDF

Chen Gong, Peilin Wu, Jinho D. Choi

TL;DR本文提出了一种新颖的评估方法，用于基于文本的发言人分离，克服了传统度量标准在文本中不考虑任何上下文信息的局限性。我们提出了两个新的度量标准，即基于文本的分离错误率和分离 F1 值，通过对参考和假设转录中的标记进行对齐，进行话语和单词级别的评估。我们的度量标准涵盖了更多类型的错误，相比现有的度量标准，可以进行更全面的发言人分离分析。为了对齐标记，引入了一种多序列对齐算法，支持参考序列中的多个序列，同时使用动态规划处理假设中的高维对齐。我们的工作打包为两个工具，align4d 提供用于对齐算法的 API，TranscribeView 用于可视化和评估发言人分离错误，这可以极大地帮助创建高质量的数据，促进对话系统的发展。

Abstract

This paper presents a novel evaluation approach to text-based speaker diarization (SD), tackling the limitations of traditional metrics that do not account for any contextual information in text. Two new

evaluation approach text-based speaker diarization metrics alignment algorithm dialogue systems

发现论文，激发创造

探索口语理解中有关说话人信息以改进说话人分离

本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法，提出了两个子任务（对话检测和发言者切换检测）来有效地从对话语义中提取讲话者信息，并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明，我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。

May, 2023

SpeechAlign：语音翻译对齐评估框架

SpeechAlign 是一个框架，用于评估语音模型中源 - 目标对齐领域的尚未充分探索的领域，并提供了两个新的度量标准来评估语音模型的对齐质量，通过发布 SpeechAlign 来为模型评估提供一个可访问的评估框架，并用它来评估开源的语音翻译模型。

Sep, 2023

词汇发音者错误更正：利用语言模型进行发音者离话错误更正

本篇论文探讨了使用语言模型的 Speaker diarization second-pass error correction approach 引入词汇信息，可以有效且稳健地提高多个电话数据集上的单词级别 Diarization 错误率（WDER）降低 15％至 30％。

Jun, 2023

DiariST: 带有说话者分离的流式语音译文

该论文提出了 DiariST，第一个基于神经传感器的流式语音翻译和说话人分离解决方案，它集成了用于多说话人语音识别的标记级别序列化输出训练和 t 向量，通过新的评估数据集 DiariST-AliMeeting 和新的衡量 ST 质量的度量方法，实现了较强的 ST 和 SD 能力，并为此推出了离线基线系统和评估代码。

Sep, 2023

一种统一的模型？走向端到端的联合说话人分离与语音识别

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

在线音视频会议转录技术进展

本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统，该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时，还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法，提供了一个名为 SRD 的会议转录框架，并使用 11 名与会者的会议录音的实验结果表明，连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1％。当有完整的与会者名单时，字词错误率与演讲者归属字词错误率之间的差异仅为 1.0％，表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时，差异略有增加，为 1.6%。

Dec, 2019

DeSTA: 通过描述性语音文本对齐提升语音语言模型

通过 Descriptive Speech-Text Alignment 方法，本研究提出了一种新型的语音语言模型，可以解释和生成全面的自然语言描述，从而促进对语音的语言和非语言特征的理解，并在 Dynamic-SUPERB 基准测试中展现出卓越性能，尤其是在未见过的任务上的泛化能力，同时发现对齐模型具有零样本指令跟随能力，无需显式调整语音指令，这些发现突显了通过加入丰富的描述性语音字幕来改变指令跟随语音语言模型的潜力。

Jun, 2024

混合 SD（H_SD）：自动语音识别任务的新混合评估指标

本文提出了一种新的自动语音识别系统的综合评估指标 Hybrid-SD，该指标既考虑语义正确性又考虑错误率，通过使用微调技术构建快速轻量级的 SNanoBERT 模型生成句子相似度分数，并证明 H_SD 与下游任务（如意图识别和命名实体识别）的相关性更强。

Nov, 2022

多方会议中说话人归属的自动语音识别的比较研究

对在多方会议场景下的口语识别（SA-ASR）中的发言人进行的比较研究中，通过三种不同的方法进行了评估。结果表明，引入单词级别的划分模型可以有效降低时戳对准错误。同时，采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。

Mar, 2022

对话短语说话人分离任务（CSSD）：数据集，评估指标和基线

文章介绍了一个新的对话说话人分离任务，即 CSSD 任务，提供了相关数据集和评估指标 CDER，并采用变分贝叶斯 HMM x-vector 系统作为 CSSD 任务的基准模型。

Aug, 2022