多目标自回归预测编码改进语音表示
该研究探讨使用自回归预测编码(APC)进行生成式预训练学习,以学习有意义、不具体且可传递的语音表示,并经过三个语音应用程序的转移学习实验来验证和评估其效能。该方法不仅在所有 3 个任务上优于表面特征和其他流行的表示学习方法,而且还能够减少下游标注数据大小和模型参数。同时,使用 Transformers 来建模 APC 将优于使用递归神经网络(RNN)方法。
Oct, 2019
本研究基于两个不同语言的数据集,研究了两种预测编码模型(APC 和 CPC)的行为,发现 CPC 模型在短时间内已经取得了更好的表现,其预测损失优化后的表现也符合语音识别领域中音素特征学习的最优化要求。
Jul, 2020
本研究提出非自回归预测编码 (NPC) 的自学习方法,通过仅依赖语音的本地依赖,在非自回归方式下学习语音表示。使用新引入的蒙版卷积块实现 NPC 的概念简单、易于实现的目标,并且在每个时间步长上具有固定的推断时间,从而加速了推理速度。理论和实证比较证明了 NPC 的有效性,与其他方法相比,NPC 的表现在语音实验中可比,而且更加高效。
Nov, 2020
本文提出了一种新颖的无监督自回归神经模型,用于学习通用的语音表示,通过无需音素或单词边界标签的方法,从大量未标记数据中学习。我们的模型的语音表示显著提高了电话分类和说话人验证的性能,并且我们的分析表明,不同级别的语音信息由我们的模型在不同层次上捕获。
Apr, 2019
本研究提出了一种普适的无监督学习方法 Contrastive Predictive Coding,通过使用强大的自回归模型在潜在空间中预测未来来提取高维数据的有用表示,以此学习有用的表示并在语音,图像,文本和三维环境中的强化学习中实现了强大的表现。
Jul, 2018
我们提出了一种声学增强的语言建模方法,通过使用语音单元预测中的错误积累来改善 TTS 模型的性能,通过自我监督表示来作为自回归语言模型的训练目标,并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器,以减少非自回归训练中的错误传播,客观和主观评估验证了我们提出方法的有效性。
Jun, 2024
提出了一种新的预测编码框架,称为主动预测编码,利用超网络、自监督学习和强化学习来学习层次化的世界模型,并成功解决了细分视觉和复杂动作序列组合等多个问题。
Oct, 2022