- 基于 CWT 的语音合成中的 Mel 频谱增强范式
基于连续小波变换的 Mel 频谱增强范式可提高合成语音的质量,与基线模型相比,该增强范式在自回归和非自回归语音系统中实验结果表明合成语音的 MOS 得分提高了 0.14 和 0.09,为增强范式广泛适用性提供了验证。
- 持续元音在 COPD 预处理与后处理分类中的应用
使用 50 名患者的研究,我们发现使用持续元音可以提高对慢性阻塞性肺病在语音中表现的识别准确率,从 71%的基准提高到最高 79%的无权重平均召回率,并鉴定和解释了表征 COPD 的最重要的声学特征。
- 融合声学和基于文本特征的情感识别的方法
使用声学和文本特征,研究通过不同方法对语言情感进行分类的研究。使用 BERT 获取情感转录中所包含信息的上下文化词嵌入,相比使用 Glove 嵌入,结果表明表现更好。我们还提出并比较不同的音频和文本模式结合策略,并在 IEMOCAP 和 M - 使用特征融合和并行结构分类器增强文本无关说话人验证系统
提出了结合不同声学特征和支持向量机分类器的方法,以改善噪声环境下说话人验证系统的性能。结果表明,在干净语音或噪声存在的情况下,使用组合特征和组合分类器可以显著提高系统性能。最后,提出了多频带噪声去除技术作为预处理阶段,用以增强在嘈杂环境下的 - 深度神经网络的无监督音频和语义训练模型
应用深度学习框架从文本特征中提取有意义的表示,研究了语义同步在人际交流和人机交互中的评估及其与声学特征之间的关联性。
- 在语音情感识别中使用谐振和打击成分的杠杆化 Mel 频谱图
该研究通过对 Mel 谱图的谐波和打击性组成部分进行分析,提出了一个新的架构,包括特征映射生成器算法、基于 CNN 的网络特征提取器和多层感知器(MLP)分类器,研究有效的数据增强技术建立了丰富的混合特征映射,最终在 Berlin EMO- - 利用语言识别计算中间 CTC 损失以增强代码交替语音识别
通过在自动语音识别模型的编码器的中间层引入语言识别信息,本文旨在以更加隐式的方式生成暗示语言区别的声学特征,降低模型在处理语言切换时的混淆。
- RTFS-Net: 循环时间频率建模 有效的音频视觉语音分离
本文提出了一种新颖的基于时频域的音视频语音分离方法:递归时频分离网络 (RTFS-Net),通过在短时傅里叶变换产生的复杂时频区间上运用算法来独立地对音频的时间和频率进行建模,并引入了独特的基于注意力的融合技术,以有效地整合音频和视觉信息, - 我的狗和我之间的声学相关性
研究狗叫声与主人语言环境之间的相关性,利用 Shiba Inu 犬的数据集,通过分类任务和显著因素分析,发现两种语言环境下狗叫声的显著声学差异,并识别了一些潜在与它们主人语言模式相关的声学特征。
- 通过自监督嵌入和增强道变量改进语音逆转
通过结合利用自我监督学习模型和改进的几何变换模型,我们提高了从 0.7452 到 0.8141 的皮尔逊积矩相关系数(PPMC)得分,从而增加了 6.9%,从而突出了来自自我监督学习模型和改进的几何变换模型对语音反演系统功能的重大影响。
- PromptTTS++:使用自然语言描述控制基于提示的文本到语音中的说话人身份
这篇论文提出了 PromptTTS++,一个基于提示的文本到语音合成系统,通过自然语言描述实现对说话者身份的控制。为了在基于提示的 TTS 框架内控制说话者身份,引入了说话者提示的概念,描述了与说话风格大致独立的语音特征,可以有效地学习从自 - 智能手表衍生的认知相关日常功能缺陷声学标记
使用基于智能手表的应用程序收集声学特征作为检测日常功能缺陷的客观标记是可行的,通过声学特征可以高达 77.8% 的准确率检测出存在日常功能缺陷的个体。
- COVID-19 检测系统:基于咳嗽音频特征的系统性能比较分析
利用咳嗽声音进行 COVID-19 检测的研究,探讨了增强机器学习模型性能的各种声学特征提取技术,并在两种机器学习算法(支持向量机和多层感知机)上进行了实证研究,提出了一种高效的 COVID-19 检测系统。该系统在 COUGHVID 和 - 基于注意力机制的音频特征融合网络用于抑郁症检测
利用提出的 Attention-Based Acoustic Feature Fusion Network (ABAFnet),结合多种不同的声学特征,以及通过权重调整模块对特征进行合成,提高抑郁症的检测和亚型分类的性能。
- ACL跨越声学建模的粒度鸿沟
为了压缩声学特征并同时保留更丰富的信息,我们提出了逐步向下采样(PDS)的方法,并开发了一种表示融合方法来减少信息损失。可以将声学特征压缩到初始长度的 1/32,同时在语音识别任务上获得更好或相当的性能,并带来 1.20 倍至 1.47 倍 - 自监督语音模型在北萨米方言识别中的应用
本研究通过特征提取和自监督表示法,成功区分处理了北萨米语的四个方言变体,并发现了主流语言对方言的影响。
- 使用自监督语音表示模型进行零样本文本转语音合成
本研究提出了一种零样本文本转语音模型,使用自监督学习获取的语音表示模型进行条件控制,并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。
- 基于双分支网络的情感反应强度估计
本文提出了一种解决第五届野外情感行为分析(ABAW)中 Emotional Reaction Intensity(ERI)挑战的双分支基于多输出回归模型,利用空间关注更好地提取视觉特征,利用 Mel-Frequency Cepstral C - 基于语用学和预训练特征的跨语言阿尔茨海默氏病检测
该研究利用 openSmile 工具包和 XLSR-53 提取声学特征,将语音转录成文本后提取语言特征进行 AD 患者检测,结果显示该方法能够通过自发性说话实现自动多语言阿尔茨海默病检测,分类准确率为 69.6%,均方根误差为 4.788。
- 自发言语下的多语种阿尔茨海默病痴呆识别:一个信号处理大挑战
该研究利用信号处理和机器学习方法基于自然语言数据构建预测模型,旨在探究多语言环境下应用于阿尔茨海默病检测的声学特征表达方法,其基准系统在语音阿尔茨海默病检测方面准确率达到 73.91%、在认知分数预测方面根均方误差为 4.95。