隐式口语分片
在一个混合语言环境中,使用隐性框架的语音语言编组(LD)作为预处理系统是必要的。通过基于固定分割、基于变化点分割和 E2E 的三种框架,提出了三种实现 LD 的方法。而当使用微软 CS(MSCS)数据集时,使用 E2E 框架的隐性 LD 的性能下降至 60.4%,主要是由于 MSCS 和 TTSF-LD 数据集中辅助语言的单语片段持续时间的分布差异。因此,为解决这个问题,本研究提出了一种自监督的隐性语言表示方法,相对于 x-vector 表示,该方法实现了约 63.9% 的改进,并在 E2E 框架下取得了 21.8 的 JER。
Aug, 2023
本文介绍一种基于 d-vectors 的说话者辨识方法,将 LSTM-based 的 d-vector audio embeddings 与非参数聚类相结合,实现了最新的说话者辨识系统,与传统 i-vector 系统相比,取得了更好的结果。
Oct, 2017
本篇论文探讨了使用语言模型的 Speaker diarization second-pass error correction approach 引入词汇信息,可以有效且稳健地提高多个电话数据集上的单词级别 Diarization 错误率(WDER)降低 15%至 30%。
Jun, 2023
在多语言社会中,非正式对话经常涉及多种语言的混合使用。DISPLACE 挑战对多语言和说话者鉴别技术进行了评估和基准测试,其中 Track-1 专注于多语境的说话者鉴别,而 Track-2 则针对多说话者情境的语言鉴别。该论文详述了挑战、数据集、任务和基准系统,并提供了顶尖系统的概述,强调了在这些对话中系统在普遍商业应用之前需要克服的主要挑战。
Nov, 2023
本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法,提出了两个子任务(对话检测和发言者切换检测)来有效地从对话语义中提取讲话者信息,并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明,我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。
May, 2023
该研究论文研究了语言识别的问题,使用了基于注意力机制和神经网络的方法,使用频谱图像作为输入以及原始波形作为特征,对六种语言进行了分类,获得了高精度的结果。
Oct, 2019
探索利用 Whisper 模型的解码器网络通过其生成机制提取语言特征来提高 LID 任务中的分类准确性。通过基于语言嵌入方法和直接优化 LID 输出的两种策略,在 MLS、VoxLingua107 和 CommonVoice 等大规模多语言数据集上进行实验以验证我们的方法的有效性。实验结果表明该方法在 LID 任务的领域内和领域外数据集上均具有良好效果。
Dec, 2023
本研究通过将发言者信息嵌入到端到端系统中,提高了发言者辨识能力,并保持了处理语音重叠的优势,通过多种方法将这些嵌入与声学特征相结合。同时,对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估,结果表明相对于基准端到端模型,发现有了显著的降低对话错误率,相对提高了 10.78%。
Jul, 2024
本文通过使用发音特征将多种训练语言的音素映射到目标语言中,对多语言预训练的 wav2vec 2.0 模型进行微调,以在没有标记数据的情况下提高其对未见过的语言的识别能力,并在实验中取得了较优效果。
Sep, 2021