- 自监督语音模型是否具有类人感知偏见?
通过研究 wav2vec 2.0,HuBERT 和 CPC 三种最先进的自监督模型的表示空间,与法语和英语人类听众的感知空间作比较,我们发现 CPC 模型具有微小的母语语言效应,但 wav2vec 2.0 和 HuBERT 似乎发展出了一种 - 面向口语理解和同时语音翻译的分块流式 Transformer
本研究提出基于块状,流式 Transformer 的方法,通过流式处理和块状并行检索,在同时进行自然语言理解和语音翻译等多个语音处理任务中,实现实时处理并取得与离线模型相当甚至更高的性能表现,并通过引入自动语音识别中间层损失约束和跨语言编码 - 自监督语音转文本系统中性别影响的研究
本研究使用法语作为研究语言,通过比较不同性别平衡的预训练数据集在 ASR 和 ST 中的表现来探究其影响。结果表明,性别平衡的预训练模型不一定导致最佳结果,并且使用自监督模型作为特征提取器时,ASR 和 ST 的结果会遵循更复杂的模式。
- 使用 Prompt Tuning 对生成式口语模型进行探索,以处理语音处理任务
本研究首次探讨了基于生成式口语语言模型 (GSLM) 的提示调整范式用于语音处理任务,实验结果表明,与下游精细调整模型相比,提示调整技术使用的可调参数更少,在语音分类任务中实现了较高性能。
- COLING环境噪声对阿尔茨海默病语音检测的影响:你应该让婴儿哭吗?
通过分析 15 种环境噪音对四个机器学习模型的影响,发现有些类型的噪音有助于提高阿尔茨海默病检测模型的准确性,推荐在实际应用中利用这些噪音来取得最佳性能。
- 音频自监督学习:综述
本文综述了自监督学习在音频处理和语音处理领域中的应用,包括方法、实验和基准数据,并讨论了未来发展方向和存在的问题。
- AAAI无监督神经语音表示学习概述
本文回顾了过去十年中无监督表示学习在语音处理领域的发展,归纳了自监督方法和概率隐变量模型这两类主要模型,提出了全面的分类方法,并讨论了这两类模型。
- 走向一个共同的语音分析引擎
本文提出了基于 HuBERT 自监督语音表示法的通用语音分析引擎架构,能够处理多个语音处理任务并支持小型数据集的新任务。实验结果表明,在语言识别和情感识别任务上,该引擎的表现超过了现有的最高水平,并且在使用少量训练数据的情感识别任务上也具有 - TorchAudio:音频和语音处理的构建块
介绍了 TorchAudio 0.10 版本,提供了音频和语音处理领域的机器学习应用程序的构建块,可以在 Python Package Index 中轻松安装并提供了生产就绪的 GPU 兼容的代码,其各种操作和模型实现与其他公开实现类似。
- WavLM:用于完整语音处理的大规模自监督预训练
本篇论文提出了一种新的预训练模型 WavLM,通过联合学习掩蔽语音预测和去噪,利用 Transformer 结构的门控相对位置偏置来更好地捕捉输入语音的顺序,使 WavLM 不仅具有掩蔽语音预测的语音内容建模能力,同时也提高了对非 ASR - SUPERB: 语音处理通用性能基准
为了在语音处理领域建立一套系统化的自监督学习模型,该研究引入了 Speech processing Universal PERformance Benchmark (SUPERB) ,通过优化基于共享模型的轻量化预测头以及自监督学习的表征表 - 自监督语音表示作为无监督声学单词嵌入输入特征的比较
本文研究了零资源语音处理中基于帧级特征的声学词嵌入模型,发现使用自监督预测编码和对应自编码器模型等代替传统的 MFCC 作为输入,可以在英语和 Xitsonga 数据的单词辨别任务中取得更好的效果,并且能跨语种使用。
- 人工智能、语音和语言处理方法在阿尔茨海默病监测中的应用:一项系统性综述
通过对 2000-2019 年关于使用人工智能、语音和语言处理来预测老年痴呆症认知下降的研究进行系统回顾,总结出近 51 项相关研究的详细信息、研究过程及其局限,并提出解决策略。虽然这 51 项研究结果令人惊喜,但仍存在许多问题,如缺乏标准 - 语音转换及其挑战:从统计建模到深度学习的概述
本文给出了语音转换技术及其性能评估方法的最新进展概述,并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。
- ACLISA: 智能购物助手
本文介绍了一个名为 ISA 的、基于移动设备的智能购物助手,旨在通过计算机视觉、语音处理和自然语言处理等先进技术提高实体店购物体验。用户只需拍摄或扫描感兴趣的商品条码,并与助手交流即可获取商品信息、购买指引或其他类似商品推荐等。我们采用数据 - ACL分析分析方法:口语神经模型中语音学的案例
本文探讨了使用诊断分类器和表征相似性分析两种分析技术来衡量神经网络模型中语音学的表现,并研究了两个因素对分析结果的影响,最终得出全局范围方法往往提供更一致的结果且应作为本地范围方法的补充。
- 串讲者:电视连续剧数据集
本研究提供了三部美国热门连续剧《绝命毒师》、《权力的游戏》和《纸牌屋》的 161 个剧集数据集 Serial Speakers,其中提供了每个语音转换(边界、演讲者)和场景边界的注释,以及一些剧集中的互动者和重复拍摄的注释,有助于进行类似多 - 演讲处理中的深度表示学习:挑战、最新进展和未来趋势
本文介绍了语音表征学习的不同技术的最新综述,将分散的研究汇集到了自动语音识别、说话人识别和说话人情感识别三个研究领域中,并弥补了以前综述中没有涉及语音表征学习的空白。
- 从语音信号中检测声门闭合瞬间:定量综述
本篇论文评估使用自动方法从语音波形中直接检测 GCIs 的效果,比较了五种最先进的 GCI 检测算法,其中 HEP、ZFR、DYPSA、SEDREAMS 和 YAGA 在干净语音上表现最佳,在鲁棒性测试中表现较好,并在语音处理的一个具体应用 - 使用 ConvNets 进行口语语言识别
该研究论文研究了语言识别的问题,使用了基于注意力机制和神经网络的方法,使用频谱图像作为输入以及原始波形作为特征,对六种语言进行了分类,获得了高精度的结果。