- AG-LSEC: 音频语境词汇发音错误修正
通过使用现有的 SD 管道中直接从说话者得分中获取的信息,将 LSEC 系统与口音得分加强和基于口音的 LSEC 系统相结合,相对于基于音频的 SD、ASR 系统,在 RT03-CTS、美国英语 Callhome 和 Fisher 数据集上 - 常见在线说话者对话方法综述
在线说话者辨识提供了 “谁何时说话” 的答案,可用于完成音频转录和后续处理步骤;本文概述了在线说话者辨识的历史、训练与评估数据集,详细讨论了在线辨识方法与系统,并提出了该领域需要未来研究解决的挑战。
- 航空交通管制中的联合与顺序发言者 - 角色检测及自动语音识别
利用空中交通管制数据进行自然语言处理需要进行预处理步骤,我们提出了一种基于 Transformer 的联合语音识别(ASR)和说话人分离(SRD)系统,比较了该系统与传统方法在多个 ATC 数据集上的性能,研究显示了何种情况下该联合系统能够 - 探索多语种广播和机构演讲自动转写的口语语言识别策略
该论文讨论了多语言广播和机构性语音的口语语言识别(SLI)和语音识别,这些是在 SLI 文献中很少讨论的真实应用场景。
- 探索儿童 - 成人交互中的演讲基础模型用于说话者分离
我们的研究工作探索了言语基础模型在儿童成人说话人分离中的应用能力,并发现出色的基础模型相对于以前的方法在分离错误率和说话人混淆率方面可以实现 39.5% 和 62.3% 的相对降低。此外,我们还评估了输入音频窗口大小、说话人特点和训练数据比 - 基于 LLM 的说话人分离修正:通用方法
使用大型语言模型进行后处理的讲话者辨析能够显著提高辨别的准确性,并研发了能够适用于不同自动语音识别工具的综合模型。
- ASoBO:会议中远程说话者分辨的注意力波束选择
基于自注意力的算法用于选择固定空间滤波器的输出,从而用于联合语音活动检测和重叠说话检测的特征提取器,进而推断说话人分离。自注意力权重的分析表明其可解释性,因为它们与说话者的角度位置相关。
- 分布式物联网网络中使用联邦学习的无监督说话人分离
该论文提出了一种计算效率高且分布式的网络 IoT 音频设备的说话人分离框架。通过提出的联邦学习模型,可以识别对话中的参与者,无需大型音频数据库进行训练。通过余弦相似度的无监督在线更新机制,解决了联邦学习模型的问题。此外,该论文提出的分离系统 - 评估深度说话人分析的谱聚类鲁棒性
对于说话人区分,聚类说话人嵌入是至关重要的,但它尚未得到与其他组件一样多的关注。此外,当开发和评估数据来自不同领域时,对于说话人区分在各种数据集上的鲁棒性尚未得到探究。为了弥补这一差距,本研究深入研究了用于同领域和跨领域说话人区分的谱聚类方 - 会议在线发言人分化的语音分离指导
我们介绍了一种新的基于语音分离引导的在线发言人分化方案,适用于持续变动的说话人数量的长时间会议录音。
- 重叠感知的端到端监督层次图聚类用于发言人分离
通过图神经网络的端到端监督分层聚类算法(E-SHARC)可以改善目前状态下的说话人辨别系统,特别是在重叠语音区域的预测上。
- DiarizationLM:大型语言模型的说话人分离后处理
介绍了 DiarizationLM 框架,利用大型语言模型对说话人辨别系统的输出进行后处理,可用于提高辨别的可读性或降低词辨别错误率。实验证明,通过使用经过微调的 PaLM 2-S 模型,可以在 Fisher 电话对话数据集上降低 WDER - 多说话人重叠语音识别的演讲者掩蔽变换器
该研究论文提出了一种新的模型,结合语音识别和说话人分离的任务,通过引入说话人标签和说话人掩码分支,实现了多说话人重叠语音的识别和说话人分离。实验证明了该方法在复杂的多说话人场景中有效地提高了说话人分离的准确性。
- DISPLACE 挑战 2023 摘要 -- 对话环境中的发音者和语言判别
在多语言社会中,非正式对话经常涉及多种语言的混合使用。DISPLACE 挑战对多语言和说话者鉴别技术进行了评估和基准测试,其中 Track-1 专注于多语境的说话者鉴别,而 Track-2 则针对多说话者情境的语言鉴别。该论文详述了挑战、数 - 用于神经说话人分割的多类别交叉熵损失函数
本文通过对 9 个不同测评的广泛实验,展示了从多标签分类转换到功集多类分类的形式可以显著提高性能(特别是对于重叠语音)和对领域不匹配的鲁棒性,同时消除多标签分类的检测阈值超参数。
- EmoDiarize:使用卷积神经网络从语音信号中进行说话人分离和情绪识别
在先进的人工智能和人机交互时代,识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用,提供了一个综合的解决方案,解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架,将现有的说话人分离流程与基于卷积神经网络(CNN) - 一种统一的模型?走向端到端的联合说话人分离与语音识别
这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身 - 利用语义信息提升说话者映射:联合配对约束传播
本文提出了一种利用语言模型有效利用语义信息的基于聚类的说话人分离系统,首先通过语音理解模块提取说话人相关的语义信息,然后利用这些信息构建配对约束,最后通过将约束整合到说话人分离流程中来提高整个系统的性能,在公共数据集上的大量实验证明了我们提 - 基于辅助网络的面向单词级端到端神经说话者日志线任务
我们提出了具有辅助网络的 Word 级端到端神经化登记(WEEND),这是一种多任务学习算法,能够在相同的神经架构中同时执行端到端自动语音识别(ASR)和说话人登记。实验结果表明,WEEND 在所有 2 个说话人短格式场景上优于基线系统 - DiariST: 带有说话者分离的流式语音译文
该论文提出了 DiariST,第一个基于神经传感器的流式语音翻译和说话人分离解决方案,它集成了用于多说话人语音识别的标记级别序列化输出训练和 t 向量,通过新的评估数据集 DiariST-AliMeeting 和新的衡量 ST 质量的度量方