跟我复读:通过模仿发音实现声学到发音器官映射的自监督学习
通过研究自监督学习模型,本文展示了模型对语音内部表征与不同方面的关联,以及模型将声学信息转化为语音信号基础的原因动力学的能力,同时发现这种抽象几乎在所有语言中都有重叠,尤其喜欢同一音韵系统的语言。此外,研究还表明使用简单仿射变换,声学到语音的反演能力可以跨发音者、性别、语言和方言传递,显示了这一属性的普适性。这些结果揭示了自监督学习模型内部机制,对其卓越性能至关重要,同时为可解释性和基于语音科学的语言不可知通用语音工程模型开辟了新的方向。
Oct, 2023
使用预先训练的自监督学习模型,对发音不清的言语进行声学到发音学的逆向映射,通过条件化 x-vectors 来训练 BLSTM 网络,使用不同的预先训练特征进行低资源条件下的挑战性声学到发音学逆向映射任务,在实验中观察到 DeCoAR 在细调方案中相对于 MFCC 的皮尔森相关系数分别在健康控制组和患者组上提高了约 1.81% 和约 4.56%,同时发现具有特征重构或未来时间步预测任务的 SSL 网络(如 wav2vec、APC 和 DeCoAR)预测发音不清的发声轨迹的性能表现良好。
Sep, 2023
本文回顾了目前人类低级听觉处理的现有模型,并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明,与声学基线、音素特征和监督模型相比,来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能,并且不同的听觉处理区域对信息的不同语言层次表现出偏好。
May, 2022
使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元,并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。
Jun, 2022
通过条件生成对抗网络框架和一种测量去偏音频中残留声学信息水平的新型指标,我们提出了一种自监督的视觉声学匹配方法,能够在不使用不匹配的源音频作为参考的情况下,将音频重构为目标环境中的音频并学习解开房间声学效应,无论是通过野外网络数据还是模拟数据进行训练,我们的方法在多个具有挑战性的数据集和各种真实世界的音频和环境中表现优于现有方法。
Jul, 2023
我们提出了一种基于扩散模型的最小监督高保真语音合成方法,其中所有模块均基于扩散模型构建,非自回归框架增强了可控性,持续时间扩散模型实现了多样化的韵律表达。
Sep, 2023
本论文针对语音识别的问题,提出自我监督学习可能是解决这一问题的一个更好的选择,核心是自己生成特征,通过自我监督可以获得和人脑工作方式类似的神经网络模型,帮助理解语言习得和人脑在语音处理方面的机理。
Jun, 2022
本文研究语音合成技术,并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性,在大规模众包评估中,发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时,使用相同的自回归声学模型进行评估,Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是,组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。
Apr, 2018
通过引入 Articulatory Generator 至 Generative Adversarial Network 范式,我们提出了一种新的无监督生成语音生成 / 合成模型,它通过学习以完全无监督的方式生成关节表征(电磁关节成像术或 EMA)更加贴近于人类语音生成。研究表明,该网络学会了像人类一样在语音生产过程中控制关节,还能够生成训练分布中存在和缺失的词语,因此对人类语言的认知模型和言语技术产生了重要的影响
Oct, 2022