跟我复读：通过模仿发音实现声学到发音器官映射的自监督学习

Apr, 2022

跟我复读：通过模仿发音实现声学到发音器官映射的自监督学习

Repeat after me: Self-supervised learning of acoustic-to-articulatory mapping by vocal imitation

Marc-Antoine Georges, Julien Diard, Laurent Girin, Jean-Luc Schwartz, Thomas Hueber

TL;DR本文提出了一种语音合成的计算模型，该模型结合了以神经网络为基础的喉咙模型、基于深度神经网络的预测模型和基于递归神经网络的反演模型，从声音数据中自主训练。结果表现出了令人鼓舞的效果。

Abstract

We propose a computational model of speech production combining a pre-trained neural articulatory synthesizer able to reproduce complex speech stimuli from a limited set of interpretable →

computational model speech production neural network articulatory parameters acoustic speech input

发现论文，激发创造

语音的自监督模型推断通用的发音机制

通过研究自监督学习模型，本文展示了模型对语音内部表征与不同方面的关联，以及模型将声学信息转化为语音信号基础的原因动力学的能力，同时发现这种抽象几乎在所有语言中都有重叠，尤其喜欢同一音韵系统的语言。此外，研究还表明使用简单仿射变换，声学到语音的反演能力可以跨发音者、性别、语言和方言传递，显示了这一属性的普适性。这些结果揭示了自监督学习模型内部机制，对其卓越性能至关重要，同时为可解释性和基于语音科学的语言不可知通用语音工程模型开辟了新的方向。

Oct, 2023

音韵学反演：对语言不流利的言语进行声学到言语器官的转换：在预训练的自监督表征中是否有优势？

使用预先训练的自监督学习模型，对发音不清的言语进行声学到发音学的逆向映射，通过条件化 x-vectors 来训练 BLSTM 网络，使用不同的预先训练特征进行低资源条件下的挑战性声学到发音学逆向映射任务，在实验中观察到 DeCoAR 在细调方案中相对于 MFCC 的皮尔森相关系数分别在健康控制组和患者组上提高了约 1.81% 和约 4.56%，同时发现具有特征重构或未来时间步预测任务的 SSL 网络（如 wav2vec、APC 和 DeCoAR）预测发音不清的发声轨迹的性能表现良好。

Sep, 2023

自监督音频模型有效解释人类大脑对语音的反应

本文回顾了目前人类低级听觉处理的现有模型，并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明，与声学基线、音素特征和监督模型相比，来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能，并且不同的听觉处理区域对信息的不同语言层次表现出偏好。

May, 2022

利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现

使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元，并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。

Jun, 2022

自监督视觉声音匹配

通过条件生成对抗网络框架和一种测量去偏音频中残留声学信息水平的新型指标，我们提出了一种自监督的视觉声学匹配方法，能够在不使用不匹配的源音频作为参考的情况下，将音频重构为目标环境中的音频并学习解开房间声学效应，无论是通过野外网络数据还是模拟数据进行训练，我们的方法在多个具有挑战性的数据集和各种真实世界的音频和环境中表现优于现有方法。

Jul, 2023

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

自监督语音表示学习：综述

本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系，讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。

May, 2022

通过自监督学习构建一个真实的大脑语音处理模型

本论文针对语音识别的问题，提出自我监督学习可能是解决这一问题的一个更好的选择，核心是自己生成特征，通过自我监督可以获得和人脑工作方式类似的神经网络模型，帮助理解语言习得和人脑在语音处理方面的机理。

Jun, 2022

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

Articulation GAN：无监督建模关节学习

通过引入 Articulatory Generator 至 Generative Adversarial Network 范式，我们提出了一种新的无监督生成语音生成 / 合成模型，它通过学习以完全无监督的方式生成关节表征（电磁关节成像术或 EMA）更加贴近于人类语音生成。研究表明，该网络学会了像人类一样在语音生产过程中控制关节，还能够生成训练分布中存在和缺失的词语，因此对人类语言的认知模型和言语技术产生了重要的影响

Oct, 2022