基于样本自编码器的无监督音频视觉合成

ICLRJan, 2020

基于样本自编码器的无监督音频视觉合成

Unsupervised Audiovisual Synthesis via Exemplar Autoencoders

Kangle Deng, Aayush Bansal, Deva Ramanan

TL;DR该论文提出了一种无监督方法，可以将任何个人的输入语音转换为无限数量的输出扬声器的音频可视化流，并使用先例自编码器学习特定目标样本语音的声音、风格韵律和视觉外观，它可以很容易地扩展到任意数量的扬声器和风格，而无需对输入扬声器进行任何训练数据。

Abstract

We present an unsupervised approach that converts the input speech of any individual into audiovisual streams of potentially-infinitely many output speakers. Our approach builds on simple autoencoders that projec

unsupervised approach speech conversion audiovisual streams exemplar autoencoders structured linguistic content

发现论文，激发创造

大规模无监督音频预训练用于视频到语音合成

该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型，用已经预训练好的解码器初始化视频到语音合成任务的音频解码器，从而改进生成器的质量和重构的语音质量。

Jun, 2023

通过变分自编码器对表情进行建模的表达性语音合成

本文提出一种将自回归语音合成模型 VoiceLoop 与变分自编码器 VAE 相结合的方法，通过在语音生成过程中显式建模全局特征，控制生成语音的表达方式从而提高语音合成的表现力。

Apr, 2018

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020

端到端语音合成中学习风格控制与转移的潜在表示

本文介绍了利用变分自编码器（VAE）来实现语音合成模型的端到端学习，以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性，使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示，然后将其馈入 TTS 网络来引导语音合成中的风格，可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃，采用了多种技术。最后，所提出的模型在风格控制上表现良好，并在风格转移的 ABX 偏好测试中优于全局风格令牌（GST）模型。

Dec, 2018

使用 WaveNet 自编码器进行无监督的语音表示学习

本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示，并比较三个变体：简单维度约束、高斯变分自编码器和离散量化矢量自编码器，成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。

Jan, 2019

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

基于多模态变分自编码器的音频 - 视觉分割

通过提出的明确条件多模态变分自编码器（ECMVAE）来进行音频 - 视觉分割（AVS），从有效的表示学习的角度解决现有 AVS 方法中的问题，该方法的关键词包括明确条件多模态变分自编码器、音频 - 视觉分割、表示学习、交叉模态共享表示和音源分割。

Oct, 2023

将视觉艺术转化为音乐

本研究提出的 “感觉变分自编码器”(SynVAE)，在没有配对数据集的情况下学习视听感性模态之间的一致映射，并对 MNIST 和 Behance 艺术媒体数据集进行了数量和质量方面的评估，结果表明 SynVAE 在保持跨模态潜空间一致性的同时，能够保留足够的信息内容，并在定性评估试验中，人工评估者能够将生成的音乐样本与相应的图片进行匹配，准确率高达 73%。

Sep, 2019

从视听一致性中学习自我中心视频的空间特征

基于自监督方法，我们提出了一种学习表示的方法，基于主观视角视频中的空间音频 - 视觉对应关系。我们利用掩蔽自编码框架合成掩蔽的双耳音频，通过音频和视觉的协同作用来学习有用的空间关系。我们利用预先训练的特征来解决在社交场景中需要空间理解的两个下游视频任务：活跃说话者检测和空间音频去噪。通过大量实验证明，我们的特征足够通用，能够在两个公开具有挑战性的主观视角视频数据集 EgoCom 和 EasyCom 上改进多个最先进的基准模型。

Jul, 2023

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021