隐式口语分片

Jun, 2023

Implicit spoken language diarization

Jagabandhu Mishra, Amartya Chowdhury, S. R. Mahadeva Prasanna

TL;DR本研究探讨了利用深度学习的端到端 x - 向量方法进行语音流言分离的性能表现，并发现预训练的 wave2vec 嵌入可以提供近 30% 的错误率改进。

Abstract

spoken language diarization (LD) and related tasks are mostly explored using the phonotactic approach. Phonotactic approaches mostly use explicit way of language modeling, hence requiring intermediate phoneme mod

spoken language diarization phonotactic approach deep learning approaches x-vector approach pre-trained wave2vec embeddings

发现论文，激发创造

自我监督的口语语言表示在语音语言分离中的应用

在一个混合语言环境中，使用隐性框架的语音语言编组（LD）作为预处理系统是必要的。通过基于固定分割、基于变化点分割和 E2E 的三种框架，提出了三种实现 LD 的方法。而当使用微软 CS（MSCS）数据集时，使用 E2E 框架的隐性 LD 的性能下降至 60.4%，主要是由于 MSCS 和 TTSF-LD 数据集中辅助语言的单语片段持续时间的分布差异。因此，为解决这个问题，本研究提出了一种自监督的隐性语言表示方法，相对于 x-vector 表示，该方法实现了约 63.9% 的改进，并在 E2E 框架下取得了 21.8 的 JER。

Aug, 2023

使用 LSTM 进行说话者分离

本文介绍一种基于 d-vectors 的说话者辨识方法，将 LSTM-based 的 d-vector audio embeddings 与非参数聚类相结合，实现了最新的说话者辨识系统，与传统 i-vector 系统相比，取得了更好的结果。

Oct, 2017

词汇发音者错误更正：利用语言模型进行发音者离话错误更正

本篇论文探讨了使用语言模型的 Speaker diarization second-pass error correction approach 引入词汇信息，可以有效且稳健地提高多个电话数据集上的单词级别 Diarization 错误率（WDER）降低 15％至 30％。

Jun, 2023

DISPLACE 挑战 2023 摘要 -- 对话环境中的发音者和语言判别

在多语言社会中，非正式对话经常涉及多种语言的混合使用。DISPLACE 挑战对多语言和说话者鉴别技术进行了评估和基准测试，其中 Track-1 专注于多语境的说话者鉴别，而 Track-2 则针对多说话者情境的语言鉴别。该论文详述了挑战、数据集、任务和基准系统，并提供了顶尖系统的概述，强调了在这些对话中系统在普遍商业应用之前需要克服的主要挑战。

Nov, 2023

探索口语理解中有关说话人信息以改进说话人分离

本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法，提出了两个子任务（对话检测和发言者切换检测）来有效地从对话语义中提取讲话者信息，并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明，我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。

May, 2023

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

口语语言识别的生成语言表示

探索利用 Whisper 模型的解码器网络通过其生成机制提取语言特征来提高 LID 任务中的分类准确性。通过基于语言嵌入方法和直接优化 LID 输出的两种策略，在 MLS、VoxLingua107 和 CommonVoice 等大规模多语言数据集上进行实验以验证我们的方法的有效性。实验结果表明该方法在 LID 任务的领域内和领域外数据集上均具有良好效果。

Dec, 2023

在端到端神经语音分离中利用说话者嵌入识别双方讲话的情景

本研究通过将发言者信息嵌入到端到端系统中，提高了发言者辨识能力，并保持了处理语音重叠的优势，通过多种方法将这些嵌入与声学特征相结合。同时，对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估，结果表明相对于基准端到端模型，发现有了显著的降低对话错误率，相对提高了 10.78%。

Jul, 2024

剧本音视频的讲话人分离

利用制作脚本为演讲人辨别任务提取伪标记数据的半监督方法在 66 个节目测试集上相对于两个非监督基准模型显示出了 51.7% 的改进。

Aug, 2023

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021