- 基于语音的临床抑郁症筛查:实证研究
通过对不同交互场景中的语音信号进行研究,包括精神科面谈、聊天机器人对话和文字朗读,本研究探究了语音信号在基于人工智能的抑郁症筛查中的实用性。利用从每个参与者的分割录音中提取的声学和深度语音特征,使用神经网络或支持向量机进行分类,并通过聚合的 - 语音 Swin-Transformer: 探索一种具有平移窗口的分层 Transformer 用于语音情感识别
该研究提出了一种基于分层性 Speech Swin-Transformer 的声音情感识别方法,通过分级的窗口聚合多尺度情感特征,将 Transformer 的感知范围从帧级扩展到片段级,实验结果表明该方法优于现有的技术。
- 一种改进的变分模态分解算法对语音情感识别性能的影响
提出了一种名为 VGG-optiVMD 的方法,通过对情感识别中的语音信号进行分解和特征提取,结合信号采样率和分解参数的精细调整,实现了在 Berlin EMO-DB 数据库上预测七种情绪的最新技术,达到了 96.09% 的准确率。
- AAAI自监督解缠结表示学习用于稳健目标语音提取
通过自监督解缠的表示学习方法,该论文提出了一种两阶段的方法,利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系,从而有效地引导语音提取网络并降低说话者混淆的可能性。此外,引入自适应调制 Transformer - 语音基于增强优化和增量聚类的血压估计
利用机器学习和语音信号,研究了准确血压估计的预处理、特征提取和实时应用。通过结合先进的聚类策略和情感维度的 YouTube 视频,丰富了对现代媒体环境与健康影响的理解。
- 使用离散化语音单元探索语音识别、翻译和理解:一项比较研究
通过对离散单元在端到端语音处理模型中应用的系统和全面的探索,实验证明离散单元在几乎所有设置中都可以取得相当好的结果。
- 语音信号准确共振峰跟踪的时变准闭相位分析
本文提出了一种新的方法,使用时间变化的准闭相位(TVQCP)分析准确估计和跟踪语音信号中的共振峰。
- 使用来自不同语言的语音进行帕金森病检测的 AI 模型的安全开发的联邦学习
本文应用联邦学习技术,利用不同机构提供的语音信号数据构建模型,实现帕金森氏症的检测,达到了远程合作且高准确度的目的,而不需要共享病人数据,增强了患者的结果。
- EMNLP透过听力引导语义:口语句子嵌入的无监督学习
本研究通过转换语音信号为由声学单元发现生成的隐藏单元并提出了 WavEmbed,一个多模态连续自编码器,用于预测从语音传感器中提取的隐藏单元的密集嵌入,其次通过知识蒸馏提出 S-HuBERT。最佳性能的模型与人类判断之间的相关性中等(0.5 - MAESTRO: 通过模态匹配匹配语音文本表示
Maestro 是一个自我监督的训练方法,以统一从语音和文本模态中学到的表示。 该算法通过序列对齐,持续预测和匹配来学习统一的表示,以用于自动语音识别(ASR)和语音翻译(ST)等下游实验。
- 语音传输的语义沟通系统
该研究通过设计一种基于深度学习和注意机制的语音语义通信系统 DeepSC-S,以提高在噪音环境下的语音信号精度和鲁棒性,并在电话和多媒体传输系统中进行了实践验证。研究证明 DeepSC-S 在语音信号指标方面优于传统通信方法,并且在低信噪比 - ICASSP 2021 深度降噪挑战赛:利用双阶段深度网络分离幅度与相位优化
提出了一种新的消噪系统,主要由两个管道组成,第一个管道旨在解耦幅度和相位的优化问题,第二个管道旨在进一步抑制失真噪声,可以有效改善主观质量。在 ICASSP 2021 深度噪声抑制挑战中,我们的系统在实时轨迹 1 上以 ITU-T P.80 - 实时语音频带扩展
本文提出了一种轻量级模型,可以将采样频率从 8kHz 提高到 16kHz,并使用 SEANet 模型结构和特征损失和对抗损失的组合方法,将高频内容恢复到与 16kHz 接近的水平,并且该模型在流模式下具有较低的延迟,可在双向语音通信系统中实 - 多个自监督任务中学习与问题无关的语言表征
本论文提出一种改进的自监督学习方法,其中单个神经编码器由多个工作人员共同解决不同的自监督任务,该方法可学习传输、强健和面向问题的特征,这些特征中包含了从语音信号中提取的相关信息,如讲话者身份、音素和情感线索。
- 使用深度特征损失进行语音去噪
本研究提出了一种针对语音信号去噪的端到端深度学习方法,采用完全卷积网络训练上下文聚合并使用深度特征损失函数。通过测试表明,相较于传统回归损失函数,该方法在去除最具挑战性噪音方面效果更加显著,具有较高的客观语音质量指标和人类感知实验结果。
- 光门循环单元(LG-RU)用于语音识别
本篇论文提出了一种名为 Light GRU 的改进型 GRU 神经网络模型,通过删除 reset gate 和使用 ReLU 激活函数,从而提高自动语音识别任务的训练效率和识别准确率。