使用说话人嵌入作为声音压力检测的个性代理

Jun, 2023

使用说话人嵌入作为声音压力检测的个性代理

Speaker Embeddings as Individuality Proxy for Voice Stress Detection

Zihan Wu, Neil Scheidwasser-Clow, Karl El Hajal, Milos Cernak

TL;DR本研究提出了一种声音压力检测的方法，通过将说话人嵌入到混合 BYOL-S 特征中，解决了个体差异性的问题，对于不同类型的压力和语言，表现出了很好的性能。

Abstract

Since the mental states of the speaker modulate speech, stress introduced by cognitive or physical loads could be detected in the voice. The existing voice stress detection benchmark has shown that the audio embeddings extracted from the Hybrid →

voice stress detection audio embeddings individual variabilities speaker embeddings byol-s

发现论文，激发创造

手工制作与可学习的混合音频表示，用于认知和身体负荷下的语音分析

本文提出了一种使用手工特征和基于数据驱动深度神经网络表示的自监督音频表示方法，用于检测语音中负荷相关的压力。此方法在多个数据集中展现优异性能，胜过传统数字信号处理方法和最新的基于深度神经网络的声音表示学习方法。

Mar, 2022

自监督嵌入用于检测抑郁症个体症状

利用自监督学习（SSL）基于语音模型识别和预测抑郁症症状和严重程度，比传统语音特征具有显著性能改进，并探究不同类型的 SSL 预训练模型在识别不同症状时所贡献的语音信息，以及多个 SSL 嵌入的组合和多任务学习在有效识别抑郁症症状中的重要性。

Jun, 2024

压力移动传感的个性化使用自我监督学习

使用穿戴设备收集的生物信号数据进行压力预测，通过个性化的自监督学习方法，基于神经网络模型实现了较少标注数据即可达到等效结果，从而辅助移动感知技术在诸如压力等复杂、异质和主观主题上精准度健康评估系统。

Aug, 2023

鲁棒的声音质量特征嵌入用于失音声音检测

本研究提出了一种深度学习框架来生成对声音质量敏感且在不同语料库中具有鲁棒性的声学特征嵌入，同时将对比性损失与分类损失相结合进行训练，并使用数据膨胀方法提高模型的鲁棒性，实证结果表明，该方法不仅在语料库内和语料库间的分类准确度上表现出色，而且生成的嵌入对声音质量敏感且跨不同语料库具有鲁棒性。同时，与三种基准方法比较的结果表明，所提出的模型在干净以及损坏的语料库内和语料库间表现出一致的优异性能。

Nov, 2022

个性化语音增强无需独立的说话人嵌入模型

个性化语音增强模型通过适应说话者的语音特征，可以提高远程会议系统的音频质量。然而，大多数现有方法需要独立的说话者嵌入模型从注册音频中提取说话者的向量表示，这增加了训练和部署过程的复杂性。我们提出使用个性化语音增强模型本身的内部表示作为说话者嵌入，从而避免了需要独立模型的需求。我们证明我们的方法在降噪和消除回声任务上表现出与使用预训练的说话者嵌入模型的标准方法相同或更好的效果。此外，我们的方法在 2023 年 ICASSP 深度噪声抑制挑战中比冠军的平均观点分高 0.15。

Jun, 2024

量化证明：关于注册发言者嵌入的忽略方面对目标发言者分离的影响

本文研究了说话人注册嵌入的几个重要但常被忽视的方面，包括常用的说话人识别嵌入的适用性、log-mel 滤波器组和自监督嵌入的介绍以及嵌入的跨数据集泛化能力；结果表明，log-mel 滤波器组嵌入在跨数据集评估中表现更佳，但这种特征过去被忽视，未来需要进行更好的上游特征研究。

Oct, 2022

基于语音韵律从音素和音素时长中提取说话人嵌入的多说话人语音合成

该论文提出了一种基于语音节奏的说话者嵌入方法，用于使用目标说话者的少量话语对音素持续时间进行建模。

Feb, 2024

BYOL-S: 通过启动自助学习的方式学习自监督语音表示

本研究使用自我监督学习与深度神经网络等方法，探索提取声音和语音特征的最优表征，提出了多种编码器架构，并探讨了不同的预训练数据集。最后，我们提出了一个新的训练框架，用于结合手工特征和数据驱动特征，得到一个混合音频表征。在 HEAR 毕业设计的听觉场景分类和时间戳检测任务中，我们的实验表明，使用混合模型和卷积变压器作为编码器在大多数任务中都具有更优越的性能。

Jun, 2022

改进和分析用于 ASR 的神经说话人嵌入

本文研究了将神经说话者嵌入用于一个 ASR 系统，并通过基于 Conformer 的混合 HMM ASR 系统，在使用加权简单加法（Weighted-Simple-Add）集成方法时，展示了改进的嵌入提取流程，通过比较和分析不同的说话者嵌入来获得声学模型的改进，最终将最佳的 Conformer-based 混合 ASR 系统与说话者嵌入结合起来，获得了 9.0％的 WER 并在 Hub5'00 和 Hub5'01 上进行训练。

Jan, 2023

多模态机器学习在压力检测中的应用

该研究提出了一种基于多模态人工智能的框架，以监测一个人的工作行为和压力水平，并发现导致精神紧张和疲劳的个性化独特行为模式，从而检测和分类压力，准确率为 96.09％，可以帮助社区大众，特别是在 COVID-19 当前时间工作久坐人群监测和识别压力水平。

Jun, 2023