现正播放:持续低功率音乐识别
本文介绍了一种大词汇量语音识别系统,其特点是准确、延迟低,同时其内存和计算资源占用不大,可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标,进一步使用基于 SVD 的压缩方案进一步减小内存占用,同时利用贝叶斯插值构建单一的语言模型,在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率,而以运行速度优于实时的为媒介获得更优秀的结果。
Mar, 2016
本文介绍了一种名为 “音乐椅” 的分布式方法,通过数据并行和模型并行解决了物联网中资源受限设备处理实时数据的挑战,并在网络内部收集从输入传感器中获取的计算能力,以实现高效、本地化和动态的实时识别,相比较于 Tegra TX2,该系统不仅达到了类似的能量消耗,而且还取得了更好的性能。
Feb, 2018
通过增强数据的时间对齐性和使用基于两个分辨率阶段的检测,本研究提出了一种声控界面的优化方案,包括轻量级即时处理音频流的设备端模型和云端验证模型。在隐私保护方面,该方案将音频特征发送到云端而非原始音频,且在各噪声条件下,所提出的模型优于更强的分类器。
Oct, 2023
设计和实现了基于新型商业 MEMS 骨导传感器的自定义低功耗无线耳塞研究平台,使用骨导数据和递归神经网络的个性化语音检测算法在少于 12.8 毫秒的时间内以 95% 的准确率检测到语音,并且,通过基于先进的 Ambiq Apollo 4 Blue SoC 的最终实现,在不进行任务循环的情况下,平均功耗为 2.64 毫瓦,每次推断消耗 14 微焦,使用 32mAh 锂离子电池可以达到 43 小时的电池寿命。
Sep, 2023
在此研究中,我们提出了一种新颖的设备内学习架构,由预训练的主干网络和学习用户语音特征的用户感知特征学习组成,用于解决无人工场景中部署时需要调整离线训练分类器以提高准确性的问题。我们通过更新用户投影来减小从 30.1% 到 24.3% 的错误率,针对 Google Speech Commands 数据集的 35 类问题中由未见过的发言人引起的领域转移。此外,我们还展示了我们提出的架构在样本和类别稀缺学习条件下的少样本学习能力。带有 23.7k 参数和每个周期的 1MFLOP 的需求,我们的系统适用于针对电池供电微控制器的 TinyML 应用。
Mar, 2024
本文探讨利用个人化的端到端语音识别模型在移动设备上安全训练,使用户数据和模型不离开设备和服务器,以提高数据隐私和可扩展性。实验结果表明,在设备个性化的情况下,相对词误差率降低了 63.7%,性能略有下降(18.7%)但是最终实现了更好的数据隐私保护。
Sep, 2019
通过分析手机传感器获得硬件指纹,尤其是通过加速度计校准误差,可在移动设备连接到网站时实现去匿名化,同时作为较为安全的身份认证手段,并且此种方法能够提供足够的信息熵,以低概率避免与其他设备的冲突。
Aug, 2014
本研究旨在进一步研究利用行为生物特征进行连续身份验证的领域。我们贡献了一个创新的数据集,该数据集涵盖了 15 名用户使用三星平板电脑玩 Minecraft 的手势数据,每个用户游戏时间为 15 分钟。利用这个数据集,我们使用了机器学习二元分类器,包括随机森林、K 最近邻和支持向量分类器,来确定特定用户行为的真实性。我们最强大的模型是支持向量分类器,其平均准确率达到了约 90%,表明触摸动态可以有效区分用户。然而,还需要进一步研究使其成为身份验证系统的可行选择。
Mar, 2024
该论文提出了一种利用手机内置的加速度计传感器数据来识别用户身份的方法,通过建立一个随机森林分类模型,从步行数据样本中提取时间和频率信息特征。实验结果表明,该模型具有 0.9679 的准确率和 0.9822 的曲线下面积(AUC),可为智能手机提供一种低成本、高效的用户身份认证方法。
Nov, 2017