- 自发言语下的多语种阿尔茨海默病痴呆识别:一个信号处理大挑战
该研究利用信号处理和机器学习方法基于自然语言数据构建预测模型,旨在探究多语言环境下应用于阿尔茨海默病检测的声学特征表达方法,其基准系统在语音阿尔茨海默病检测方面准确率达到 73.91%、在认知分数预测方面根均方误差为 4.95。
- SAN: 一个强健的端到端自动语音识别模型架构
本研究提出一种新颖的 Siamese Adversarial Network (SAN) 结构,可以显著降低字符误差率(CER),实现了自动语音识别任务上的新突破。该网络能够捕捉到更多的声学特征,同时优化输出分布,适用于含有不清晰音频的数据 - 利用声学语言特征和先行技术进行智能语音分段
研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题,在基准测试中平均提高了 9.8%的分割 - F0.5 分数,该方法适用于多种语言,可显著提高机器翻译 BLEU 得分约 1.05 个点。
- MM使用引导生成对抗网络在不匹配环境中高效转换声学特征
提出一个新的框架,可以通过运行生成式对抗网络(GAN)生成更好的音频特征,从而提高自动语音识别(ASR)系统的性能,此框架在资源稀缺的环境中非常有用。
- 利用声学特征检测认知损伤:超越 Cookie 盗窃图片测试
该研究使用标准化测试中的语音数据,通过使用 OpenSMILE 特征和支持向量机分类器,成功实现了认知障碍的自动检测,并使用 wav2vec 2.0 特征提取技术进一步提高了识别准确度。
- 利用门控层间协作提升基于 CTC 的语音识别模型
本文提出一种 Gated Interlayer Collaboration 机制,将文本信息引入语音识别 CTC-based models,提出了一种融合文本表示和声学特征的门单元,并在多个语料库上进行试验,结果表明该方法优于现有的多数基线 - 婴儿和成人语音声学的低维表示
该研究利用机器学习方法,提取婴儿和照顾者的声音,通过 UMAP 算法在二维空间中获得连续和良好分布的空间,研究发现随着婴儿年龄的增加,婴儿声音在二维空间中的分散度会增加以及婴儿声音与成人声音的相似度也会随婴儿年龄的变化而变化。
- 使用预训练的深度视觉模型进行情感语音识别
本文提出使用视觉深度神经网络模型进行情感语音识别的新方法,通过使用预先训练的计算机视觉深度模型的迁移学习能力,将声学特征转化为图像进行识别,并在 Berlin EMO-DB 数据集上进行实验,取得了新的最佳效果。
- 非裔美国英语方言密度自动估算
本文利用几种音频和语言分析特征,包括 X-vector 表示法,ComParE 特征以及从 ASR 转录文件中提取的信息等,探究了非标准方言比例的自动预测方法,使用弱监督模型将 X-vector 和韵律特征投影到低维度的任务相关特性中,用 - 基于对比学习的自动音频字幕交互式音频文本表示
本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统,该系统结合声学和文本信息学习交互式跨模态表示,并应用对比学习来缩小领域差异,实验结果表明该方法在 NLP 评估标准上显著优于基线方法,表明预训练模型和对比学习对该模型的性能提升贡献都 - 使用自监督特征进行语音情感识别
本文介绍了一种基于自上而下加自下而上架构范式的端到端情感识别系统,构建了基于自我监督特征的情感识别实验,并研究了自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域。该单模只有语音的系统不仅取得了 SOTA 结果,而且也揭示 - 机器学习用于口吃识别:综述、挑战和未来方向
本文综合检视声学特征、深度学习和统计学为基础的口吃障碍分类方法,针对口吃识别这一已有研究空白,通过跨学科研究来填补这个空缺,并提出未来可能的挑战和发展方向。
- 使用听觉、词汇、语调和停顿特征对阿尔茨海默病痴呆进行识别并抗干扰
本文介绍了两种基于多模态融合的深度学习模型,同时使用 ASR 转录的语音和声纹数据,对结构化诊断任务中的说话人是否存在阿尔茨海默病进行分类,并评估了 ADReSSo 挑战 2021 数据,其中最佳模型 BiLSTM 采用了包括单词、单词概率 - LiRA: 通过自监督学习从音频中学习视觉语音表示
该研究提出了利用声音训练人脸运动的模型以提高口语阅读的准确度。
- 比较基于声学的阿尔茨海默病检测方法
本研究使用三种不同方法(传统声学特征、预训练声学嵌入和特征和嵌入的组合)对 ADReSSo 挑战数据集上的阿尔茨海默病检测进行了研究,结果表明使用预训练嵌入的分类方法具有更高的跨验证性能和更好的泛化能力,最优模型的表现超过了基线模型 2.8 - LVCNet: 高效的条件相关建模网络用于波形生成
本文提出了一种名为位置可变卷积的新型条件卷积网络来建模波形序列的依赖关系,其使用具有不同系数的卷积核对不同的波形区间进行卷积操作,该系数根据条件声学特征(如 Mel - 频谱图)预测,基于该方法,我们设计了 LVCNet 进行波形生成,并将 - 基于 Transformer 的歌词情感识别方法
本研究使用了基于 Transformer 的 XLNet 模型,首次探索结合歌词进行音乐情感识别。实验表明该方法的性能优于现有基于其他特征的方法。本研究为情感音乐播放列表生成和音乐推荐系统的改进等提供了重要的启示。
- 基于深度学习的音视频语音增强和分离概述
本文系统综述了基于深度学习的音视频语音增强和分离技术,特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时,还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法,并介绍了常用的音视频数据集和评估方法。
- 基于跨模态师生学习的预训练语义语音嵌入用于端到端口语理解
本文提出了一种新的训练方法,将预先训练的语境嵌入用于处理声学特征,并扩展了预先训练的语音识别系统的编码器,以构建端到端的口语理解系统,实验结果表明,该系统在三个基准测试中达到与流水线结构相当的性能,在没有使用任何训练数据的情况下,在两个基准 - INESC-ID 多模态系统 - ADReSS 2020 挑战赛
本文利用多模态方法,结合语音和文本特征,提出了自动检测阿尔茨海默病的分类框架,并发现语言特征对于阿尔茨海默病的分类比声学特征更为重要,能够提高分类准确率。