- 个性化语音活动检测系统的比较分析:评估现实世界的有效性
对个性化声活性检测(PVAD)系统进行了比较分析,评估其在真实世界中的有效性,并通过包括帧级误差率、话语级错误率、检测延迟和准确性以及用户级分析在内的各种性能指标提供全面的评估方法,从而深入探究各种 PVAD 变体的优势和局限性。
- ASoBO:会议中远程说话者分辨的注意力波束选择
基于自注意力的算法用于选择固定空间滤波器的输出,从而用于联合语音活动检测和重叠说话检测的特征提取器,进而推断说话人分离。自注意力权重的分析表明其可解释性,因为它们与说话者的角度位置相关。
- 基于轻量级神经网络的实时语音活动检测
该研究提出了一种轻量级实时的神经网络模型 MagicNet,利用 1-D 卷积和 GRU,并且不依赖未来特征作为输入,在综合测试数据集上与两种最先进的算法进行比较,评估结果表明 MagicNet 能够在较少的参数成本下实现更好的性能和鲁棒性 - 自监督预训练用于在恶劣环境中实现稳健个性化语音活动检测
本文提出了使用大规模无标签数据集上的自监督预训练,以改善个性化语音活动检测 (VAD) 模型在恶劣条件下的性能。我们使用自回归预测编码 (APC) 框架对长短期记忆 (LSTM) 编码器进行预训练,并进行个性化 VAD 的微调。我们还提出了 - 耳内音频:面向毫瓦级音频增强的耳骨传导麦克风用于耳内传感平台
设计和实现了基于新型商业 MEMS 骨导传感器的自定义低功耗无线耳塞研究平台,使用骨导数据和递归神经网络的个性化语音检测算法在少于 12.8 毫秒的时间内以 95% 的准确率检测到语音,并且,通过基于先进的 Ambiq Apollo 4 B - SVVAD:用于说话人验证的个人语音活动检测
我们提出了一种基于说话人验证的语音活动检测框架,实现了无标签训练方法并使用三元损失来适应 SV 中最具信息的声学特征。结果表明,相对于传统方案,该框架在混合说话人的条件下明显提高了等误差率,并揭示了人类判断中不同语音部分的重要性。
- 2022 Newsbridge-Telecom SudParis VoxCeleb 说话人识别挑战系统描述
该研究论文讨论了 VoxCeleb Speaker Recognition Challenge 2022 中讲者辨识赛道中的语音活动检测问题,提出了基于多流方法和熵决策协议的语音活动检测模型,并取得了接近最新成果的效果。
- ECCV2022 年 Ego4D 挑战赛中英特尔实验室:音视频对话更优秀的基线
报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法,该方法通过对模型的训练计划进行修改改进了声音活动的检测性能,证明了采用现成的语音活动检测模型可以有效地消除误 - 基于 Transformer 的目标说话人语音活动检测及其与端到端神经分离的集成
本文提出了使用变长输入张量的基于 Transformer 的目标说话人语音活动检测(TS-VAD)的说话人分离模型。Transformer 层被应用于说话者维度,以使模型输出对提供给 TS-VAD 模型的说话者资料的顺序不敏感。同时,时间方 - 自动化语音工具,帮助社区处理受限语料库以推进语言复兴
该研究提出了一种隐私保护的工作流程,通过集成语音活动检测(VAD)、自动语音识别(ASR)等技术,提高对受保护语言音频数据的注释效率。该流程旨在为那些使用英语等共同语言进行元语言评论和提问的语音录音解决元语言转录上的问题。研究结果表明匹配得 - 端到端的说话人分割,针对重叠感知的重分割
提出了一种基于端到端模型的说话人分割方法,直接进行说话人划分,通过多标签分类解决此任务,同时可用于语音活动检测和重叠语音检测,且在多个数据集上都有显著的表现提升。
- MarbleNet:面向语音活动检测的深度 1D 时间 - 通道可分离卷积神经网络
MarbleNet 是一个端到端的神经网络,用于语音活动检测,并通过 1D 时域 - 频域可分离卷积、Batch Normalization 等结构,在参数成本较小的情况下,实现了与现有最先进 VAD 模型相当的性能。
- 针对目标发言者的语音活动检测:晚宴场景下多说话人对话系统的一种新方法
提出一种新的 TS-VAD 方法,通过直接预测每个时间帧上每个演讲者的活动来解决重叠说话问题,并使用 i-vectors 作为输入,并扩展到多麦克风情况,并研究了预测演讲者活动概率的后处理策略。在 CHiME6 数据上的实验证明,TS-VA - Libri-Light: 一项有限或无监督 ASR 基准测试
提供了一个适用于有限或无监督语音识别训练的口语英语音频集合,其中包含来自 LibriVox 项目的开源有声读物,已使用语音活动检测进行段分割,并标记有 SNR,说话者 ID 和流派描述,同时提供了基线系统和评估指标,分为三个设置进行评估。
- 深度说话人嵌入中的注意力机制学习了什么?
本文采用注意力机制实现深度说话人嵌入,将注意力模型作为帧选择器,计算每个帧级特征向量的注意力权重来产生说话人嵌入模型的汇聚层中的语音表征等内容,并在 NIST 演讲者识别评估 (SRE) 任务中进行 9.0% EER 降低和 3.8%min - NIPS关键词检测和语音活动检测的端到端架构
提出一种用于语音活动检测和关键字识别的单一神经网络结构,并使用端到端递归神经网络进行训练和使用 Connectionist Temporal Classification 损失函数进行推理算法,从而实现高精度的双重任务模型无需重新训练,并有 - MUSAN: 音乐、语音和噪声语料库
该报告介绍了用于训练声音活动检测(VAD)和音乐 / 语音区分模型的新语料库,该语料库包括来自几种音乐类型的音乐,十二种语言的语音以及各种技术和非技术噪声,我们展示了该语料库在广播新闻上用于音乐 / 语音鉴别和 VAD 用于说话人识别的用途 - 基于去噪深度神经网络的语音活动检测
本文提出了一种去噪深度神经网络 (DDNN) 声活检测 (VAD) 方法,通过无监督预训练的方式提取特征并通过监督学习修正,实验结果表明该方法优于基于深度置信网络 (DBN) 的 VAD 并且在深度层次上具有明显优势。