- 众包式多语言语音可听性测试
通过众包评估多语言测试材料和产生音频特性,本研究旨在快速评估其对语音可懂性的影响。
- AIx 速度:利用语音识别模型的听力理解进行播放速度优化
通过自动调整播放速度,根据用户的状态和内容类型来实现对时间序列内容的更高效理解,提出了一个新的系统,通过在非常小的音素单位上发音,确保听到的语音具有智能性。通过评估实验,与固定快速播放的语音进行对比,验证了提出方法生成的语音更易听。
- 基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统
该研究致力于开发一种自动非侵入式系统,用于预测语音可懂度水平,研究结果显示采用长期短期记忆(LSTM)网络以及对数 - 梅尔频谱图作为输入特征的 LSTM 架构通过引入简单的注意力机制,能够确定任务中更为相关的帧,从而优于基于支持向量机(S - 结合声学和调制谱图的基于注意力 LSTM 系统用于语音可懂性水平分类
本研究提出了基于 LSTM 网络的注意力机制来预测语音可懂度级别,并探讨了使用每帧调制谱来作为输入特征以及不同的融合策略(后期融合和加权池化融合)对语音可懂度预测任务的效果,结果表明 LSTM 网络可以有效地建模调制谱序列,而后期融合和加权 - 基于中间 ASR 特征和人类记忆模型的面向听障用户的非侵入式语音可懂度预测
利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示,结合人类记忆的示例驱动型心理模型,预测助听器用户的人类可懂度评级,并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。
- 利用 Whisper 增强 Hearing Aids 的多分支语音可懂度预测模型
自动评估助听器设备中的语音可懂性非常重要。本文在以往研究基础上,提出了两种改进的模型 MBI-Net + 和 MBI-Net++,通过利用 Whisper 嵌入来增强声学特征,从而进一步提高 MBI-Net 模型的性能。实验结果表明,MBI - 基于 DNN 性能度量的语音可懂度预测
基于深度神经网络和语音识别技术的语音理解模型,可高度精确地模拟听取语音信息的相关属性,不需要干净的语音参考或单词标签。
- 实时小波算法优化提高语音可懂度
使用离散小波变换分频,不同的增益被应用到分频信号中以提高语音可懂度,可用于实时语音处理和比之前算法要简单得多
- MM一种病理性语音合成的客观评估框架
利用现有的检测和分析技术,本文提出了一个评估综合框架,用于评估不同水平言语清晰度的发音障碍语音合成。该框架可评估语音质量和可懂性方面,且经实验证明具有互补性。使用我们提出的评估框架,我们发展和测试了一种发音障碍语音转换系统,并展示其表现良好 - 使用循环一致性对抗训练改善发音障碍患者的语音可懂度
本研究旨在使用循环一致性生成对抗网络模型将口吃音转换为健康人的语音,使用 18,700 个口吃音和 8,610 个健康对照韩语发音训练了本项目的发生器,进而证明了该基于 GAN 的转换方法对于改善口吃音的可懂度是有用的。
- 利用生成对抗网络进行视频驱动的语音重建
本文提出了一种基于生成式对抗网络(GANs)的、直接从无声视频中合成自然语音的端到端模型,能够根据视频内容生成与其同步的语音,并在 GRID 数据集上进行了性能评估,实现了从视频到裸音频的首次直接映射,并能够识别新演讲者的语音,并在音质和准 - 从语音生成说话脸部标记
本文介绍了一个能够从声学语音中实时生成说话人脸关键点的系统,该系统使用一个 LSTM 网络进行训练并能够在不同说话人和话语上进行产生。
- 一种用于语音增强的全卷积神经网络
本文提出了使用全卷积神经网络来解决低信噪比下听力辅助设备中存在的背景噪音干扰人类语音理解的问题。通过有监督学习找到含噪语音的频谱和纯净语音频谱之间的映射,提出了冗余卷积编码解码(R-CED)网络,该网络大小为递归网络的 1/12,表现更好,