通过基于短时傅里叶变换机器学习在 Nvidia Edge GPU 设备上实施的声音和音频分类来检测儿童虐待

Jul, 2023

通过基于短时傅里叶变换机器学习在 Nvidia Edge GPU 设备上实施的声音和音频分类来检测儿童虐待

Detection of Children Abuse by Voice and Audio Classification by Short-Time Fourier Transform Machine Learning implemented on Nvidia Edge GPU device

PDF

Jiuqi Yan, Yingxian Chen, W.W.T.Fok

TL;DR通过机器学习应用于儿童保育机构，本研究的目的是检测儿童虐待场景，以提高儿童的安全性，通过对儿童的声音进行分类和识别，预测儿童当前发出的声音是哭泣、尖叫还是笑声，并实时向相关人员发送警报，通过同时使用视频图像分类的混合方式，可以显著提高儿童虐待侦测的准确性，减少幼儿园儿童受到暴力虐待的可能性，使工作人员能及时干预即将发生或刚刚开始的儿童虐待事件。在该实验中收集的数据集完全来自儿童保育机构现场录制的声音，包括哭泣声、笑声、尖叫声和背景噪音，这些声音文件使用短时傅里叶变换转换为频谱图，然后将这些图像数据导入到一个 CNN 神经网络进行分类，最终训练的模型在声音检测方面可以达到约 92% 的准确率。

Abstract

The safety of children in children home has become an increasing social concern, and the purpose of this experiment is to use machine learning applied to detect the scenarios of child abuse to increase the safety

children home machine learning child abuse detection sound classification spectrograms

发现论文，激发创造

婴儿啼哭的弱监督检测

使用弱监督的异常检测方法，结合卷积神经网络和预训练特征提取器检测宝宝的哭声。

Apr, 2023

运用机器学习算法检测口语中的情感表达

该研究使用 MATLAB 函数与机器学习模型分析人类语音中的声音特征，如谐波、周期性、频谱形状等，实现人类情感的识别。通过使用多个数据集进行训练，并对比测试，发现该模型优于现有类似作品。

Apr, 2023

使用音频数据进行道路事件监视的深度卷积神经网络

本研究使用深度卷积神经网络及音頻參數 (如 Mel 頻率倒谱系数、登录 Mel 滤波能量光譜、Fourier 光譜) 做為特徵集合與資料擴增技術，實現了對交通安全重大事件如碰撞、轮胎打滑、喇叭和警笛聲的自动辨識，进而提高 IoT 平台覆盖率的效果，準確率最高可達 94%。

Mar, 2022

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

自监督学习用于婴儿哭声分析

本文探讨了自我监督学习（SSL）在分析超过一千名新生儿的临床指示下的呜 cries 数据库方面的应用，其中包括神经损伤的 cry 检测以及疼痛、饥饿和不适的 cry 触发器的识别。通过使用大量的无标签音频数据进行预训练和 SSL 对比损失（SimCLR）进行预训练，我们表明其在神经损伤和 cry 触发器方面都比监督式预训练有更好的表现。此外，我们还通过使用未标记的婴儿 cry 进行基于 SSL 的域自适应，进一步提高了性能，并减少了整个系统所需的标记数据。

May, 2023

AHD ConvNet 语音情绪分类

本文提出了一种新的基于孪生网络的 mel 频谱学习方法，用于从 CREMA-D 数据集中的 wav 形式的语音记录中学习情感，所提出的模型使用对数 mel - 频谱图作为特征，mels 数量为 64，在情感语音识别的问题上，相对于其他方法，本方法所需的训练时间更短。

Jun, 2022

儿童电脑游戏中的音视频情感识别模糊方法

提出了一个基于模糊推理系统的新框架，旨在通过音频和视频数据分析来识别儿童计算机游戏中的情绪，以提升儿童用户体验，并提供对情绪的跟踪结果，有助于儿童导向式游戏开发的进展。

Aug, 2023

噪声环境中音频特征分析的 LSTM-CNN 网络

通过使用长短时记忆卷积神经网络（LSTM-CNN），本研究针对有噪音环境下的每帧音频数据，提取时间和 / 或频率相关的声音特征，从而估计同时活动的说话者数量和性别。在公共城市、工业环境、商场、展览会、工作场所和自然环境等各种情况下，使用了 19000 个男性、女性和背景噪音的音频样本进行了学习。该概念验证表明，在检测计数和性别方面，训练 / 验证均方误差（MSE）值约为 0.019/0.017，显示出有希望的性能。

Dec, 2023

CryCeleb：基于婴儿啼哭声的说话人验证数据集

描述了 Ubenwa CryCeleb 数据集 —— 一个标注的婴儿哭声集合，以及 CryCeleb 2023 任务 —— 一个基于婴儿哭声的公共说话者验证挑战。我们发布了超过 6 小时手动分割的 786 个新生儿的哭声，以鼓励婴儿哭声分析的研究。

May, 2023

基于 Wav2vec 2.0 特征的 Bag-of-Audio-Words 方法可视化复杂的家庭婴儿语音序列

研究使用基于 ML 的音频分析方法在新型多模式可穿戴设备 LittleBeats 中进行婴儿语言交互的监测，为早期识别和干预身心健康方面的发展障碍提供了可靠的工具和分析结果。

Mar, 2022