两阶段多分辨率集成的稳健唤醒词检测

Oct, 2023

两阶段多分辨率集成的稳健唤醒词检测

Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles

Fernando López, Jordi Luque, Carlos Segura, Pablo Gómez

TL;DR通过增强数据的时间对齐性和使用基于两个分辨率阶段的检测，本研究提出了一种声控界面的优化方案，包括轻量级即时处理音频流的设备端模型和云端验证模型。在隐私保护方面，该方案将音频特征发送到云端而非原始音频，且在各噪声条件下，所提出的模型优于更强的分类器。

Abstract

voice-based interfaces rely on a wake-up word mechanism to initiate communication with devices. However, achieving a robust, energy-efficient, and fast detection remains a challenge. This paper addresses these re

voice-based interfaces wake-up word mechanism temporal alignments multi-resolution audio classifiers

发现论文，激发创造

面向唤醒词检测的数据有效建模

本研究提供了一种数据高效的跨领域唤醒词模型训练技术，该技术包括多种声学环境的训练管道和半监督学习管道，可以用 10 个小时的领域不匹配的音频来增强模型鲁棒性，并从未经译写的语音语料库中准确提取 WW 和可能相似的例子，所提出的解决方案可节省 97％的具体 WW 数据收集和 86％的注释带宽并达到产业级模型的可比性能。

Oct, 2020

双重注意力神经传输器用于语音识别中高效唤醒词检测

该论文提出了双重注意力神经偏置结构，通过利用 Wake Words 来选择要执行的注意力网络分支，从而提高语音识别任务中的 Wake Words 识别准确性，节省运行时计算成本，并改善了其他方面的性能，同时降低了参数数量。

Apr, 2023

多模态数据和资源高效的设备导向语音检测与大型基础模型

通过消除触发短语的需要，本研究探索了使用流式音频录制的设备麦克风记录的信号来确定用户是否在与虚拟助手进行交流，通过将语音识别系统的最佳假设和解码器信号与音频编码器的声学表示结合为大型语言模型的输入特征来实现这一目标。使用低秩适应和前缀调整的组合来对 80,000 个或更少的多模式数据示例进行训练，我们将所提出的系统与单模式基线进行比较，结果表明多模式方法实现了更低的等错误率（EER），同时仅使用了训练数据的一小部分，并且低维度的专门音频表示比高维度的普通音频表示导致更低的错误率（EER）。

Dec, 2023

基于神经网络剪枝的迭代微调设计紧凑型视听唤醒词识别系统研究

本文提出了一种使用神经网络剪枝策略的紧凑型音视频唤醒词识别系统，该系统利用 MobileNet 对唇部信息进行编码，并与声学特征进行融合，大大提高了在不同噪声条件下的唤醒词识别性能，可望在电视开机场景下实现实际应用。

Feb, 2022

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端，我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验：首先，只使用从音频波形中获得的声学信息来训练分类器；其次，将自动语音识别（ASR）系统的解码器输出，如 1 最佳假设，作为大型语言模型（LLM）的输入特征；最后，探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型，在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模，并使用低秩适应来进行训练，在我们的数据集上进一步降低了相对误差率高达 18%。

Mar, 2024

唤醒词检测对齐处理：基于对齐、无对齐和混合方法的比较

本文研究唤醒词系统中对齐方法在开发智能家居和便携设备中的应用。我们提出了三种方法，包括基于对齐、无对齐和混合方法。我们发现无对齐系统在目标操作点上表现更好，并且只需使用少量数据即可训练符合初始约束条件的模型（20%）。

Feb, 2023

通往通讯平台实时深假语音检测系统的发展

本研究旨在评估在实时通信平台上采用静态深假音频检测模型的可行性，研发了可在多平台上运行的可执行软件，并使用 ASVspoof 2019 数据集实现了基于 Resnet 和 LCNN 架构的两个深假音频检测模型，达到了与 ASVspoof 2019 挑战基准的比较性能。该研究提出了增强这些模型的策略和框架，为在通信平台上实现实时深假音频检测铺平了道路，从而推动音频流安全性的进一步发展，并确保在动态实时通信场景下具备强大的检测能力。

Mar, 2024

推动原始波形扬声器识别的极限

本文提出了一种基于原始波形的演讲者识别模型，它结合了机器学习和说话人认证的最新进展，其中包括 Res2Net 骨干模块和多层特征聚合。该模型具有很高的性能表现，可以应用于半监督学习场景中，即在只有少量标记训练数据和大量未标记训练数据的情况下，可用于说话人识别。

Mar, 2022

观察唤醒词：视听关键词检测

本研究提出一种名为 KWS-Net 的卷积神经网络结构，通过序列匹配和模式检测技术，从视觉角度自动检测并确定在何时，是否有包含关键词的口型出现，在无音频或有清晰 / 嘈杂语音的情况下，性能优于现有的同类方法，还在跨语言处理上实现了良好的表现。

Sep, 2020