本文介绍一种利用三元组损失和变种 kNN 方法,以及基于音韵相似性的三元组挖掘方法相结合的表示学习技术,显著提高卷积网络的分类准确率,特别在语音识别领域中。作者还在 Google 语音命令数据集 V1 和 V2 中刷新最佳 SOTA 并超过 50% 的准确率提升。
Jan, 2021
研究通过使用度量学习,以及选择临时和膨胀卷积等技术来解决关键词识别中的新词汇难题。同时,利用生成的数据集,可以使用少量样本准确识别新的用户自定义的关键词汇。
Jul, 2020
本文针对未知说话人的 “开放式” 说话人识别问题,提出了一种度量学习的方法,该方法使用紧凑的嵌入来表示语音信息,并对最流行的损失函数进行了广泛评估,结果表明该方法优于现有的先进方法。
Mar, 2020
探索使用语音识别机器学习和深度学习技术进行关键词识别的重要任务,并实现了将原始波形转换为 Mel 频率倒谱系数作为模型输入的特征工程。通过尝试使用多种算法,包括混合高斯隐马尔科夫模型、卷积神经网络以及变种的循环神经网络,如长短时记忆和注意力机制,我们的实验表明带有双向长短时记忆和注意力机制的循环神经网络可以达到 93.9%的准确率。
Dec, 2023
本文提出一种新颖的端到端的用户定义关键词检测方法,利用语音和文本序列之间的语言对应模式,实现音频和文本表征在共同的隐含空间中;采用基于注意力的跨模态匹配方法,训练具有单调匹配损失和关键词分类损失的模型,并利用去噪损失改善模型在嘈杂环境中的稳健性,同时引入 LibriPhrase 数据集用于高效地训练关键词检测模型;与其他单模态和跨模态基线相比,在各种评估集上取得了有竞争力的结果。
Jun, 2022
本文研究使用合成语音数据为小型的口语术语检测模型训练提取有用特征的预训练语音嵌入模型,相较于在 500 个真实示例上训练模型,只使用合成语音即可达到同等精度。
Jan, 2020
本文提出了一种新的 Mix Training(MT)策略,用于探测嵌入在强干扰和混合语音中的低能量关键词,使用卷积神经网络(CNN)和 EfficientNet(B0/B2)架构,实验结果在 Google 语音命令数据集上表明,提出的混合训练方法高度有效,优于传统的数据增强和混合训练。
May, 2023
本研究探讨了一种简单而有效的在线持续学习方法,旨在通过随着新数据的不断出现在设备上通过随机梯度下降来更新关键词检测器。通过对不同情境下的动态音频流进行实验,该方法将性能提高了 34%。此外,实验表明,与一个朴素的在线学习实现相比,基于对训练分布中的小 hold-out 集的表现条件模型更新可以缓解灾难性遗忘。
本文通过评估在多种标准数据集上,对基于分类的参数化训练方法在图像检索领域的有效性和可扩展性进行了分析,进一步提供了样本分类的子采样和数据二值化对实际应用性能的影响。
Nov, 2018
本研究针对 KeyWord Spotting 的应用场景,提出了基于 Deep Learning 和 Few-shot Learning 的开放式分类方法,并通过使用三元组损失训练编码器,实现了较高的精度和较低的未知数据虚警率。
Jun, 2023