Fusion-S2iGan：一种高效有效的语音图像生成单阶段框架

May, 2023

Fusion-S2iGan：一种高效有效的语音图像生成单阶段框架

Fusion-S2iGan: An Efficient and Effective Single-Stage Framework for Speech-to-Image Generation

Zhenxing Zhang, Lambert Schomaker

TL;DR采用音频表示与图像生成的融合结构，实现单阶段的语音到图像生成，比基于多阶段模块的现有方法更有效，更高效，性能与传统的文本到图像方法相当。

Abstract

The goal of a speech-to-image transform is to produce a photo-realistic picture directly from a speech signal. Recently, various studies have focused on this task and have achieved promising performance. However, current speech-to-image approaches are based on a stacked modular framewo

speech-to-image transform image synthesis visual+speech fusion module generator network multi-modal learning

发现论文，激发创造

具有语义 - 空间感知的 GAN 图像生成

该论文介绍了一种基于生成式对抗网络的图像生成方法，引入了一种简单有效的语义 - 空间感知块，学习语义自适应变换，并在弱监督方式下学习语义掩膜，从而在保持视觉保真度的同时，能够对输入文本精准对齐。

Apr, 2021

DF-GAN: 一个简单有效的文本到图像合成基线

该研究论文提出了一种名为 DF-GAN 的新型深度融合生成对抗网络，用于更加高效地合成与文本相匹配的高质量真实图片，并在广泛使用的数据集上取得更好的性能。

Aug, 2020

高效语音驱动说话人脸生成的统一压缩框架

本文提出了一种轻量级语音驱动对话人脸生成模型，采用知识蒸馏方案进行训练，同时采用混合精度以获得更高的生成速度。

Apr, 2023

Wav2Pix: 使用生成式对抗网络进行语音条件下的人脸生成

本文中，我们探索了使用原始语音信号通过条件生成对抗网络（GAN）生成说话人的面部图像的潜力。我们使用自监督方法构建模型，同时利用自然对齐的音频和视觉信号，训练出一种从头开始生成面部图像的深度神经网络，没有任何额外的身份信息。我们使用一个新数据集对模型进行了训练，其中包含了高质量视频的演说家表达了非常出色的言语和视觉信号。

Mar, 2019

SLMGAN：利用语音语言模型表示的 GAN 进行无监督零样本语音转换

介绍了一种新的方法 SLMGAN，它利用 SLM（大规模预训练的语音语言模型）在生成对抗网络（GAN）框架中实现鉴别任务，特别是用于语音转换。通过在基于 mel 的鉴别器之上添加基于 SLM 的 WavLM 鉴别器，并结合新设计的 SLM 特征匹配损失函数，实现了一种无监督的零样本语音转换系统，培训过程中不需要文本标签。主观评估结果表明，SLMGAN 在自然度方面优于现有的零样本语音转换模型，并达到了相似性方面的可比较水平，突显了基于 SLM 的鉴别器在相关应用中的潜力。

Jul, 2023

从推断到生成：端到端完全自监督的人脸语音生成

本研究提出了一种多模态学习框架，利用近期发展的 GAN 技术，从声音波形中直接生成自然人脸图像分布，同时分析网络是否能够自然地分离生成人脸图像的两个潜在因素，并探索网络是否能够通过建模这些因素来生成自然的人脸图像分布。

Apr, 2020

Lafite2: 少样本文本到图像生成

本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法，通过检索和优化过程综合生成伪文本特征，可以灵活应用于各种情境和模型，并在实验中表现出显著的效果，GAN 模型在完全监督的情况下得到了 6.78 的 FID，是 GAN 最新的 SoTA 结果。

Oct, 2022

语义感知 Mask CycleGAN：将艺术人像转化为照片般逼真的可视化呈现

本文提出了 Semantic-aware Mask CycleGAN（SMCycleGAN）架构，可以将艺术画像翻译成照片现实视觉效果，该模型可以生成逼真的人类肖像，并通过向鉴别器馈送语义掩码的伪样本来强制其做出有用决策，以便对发电机进行优化以合成更逼真的人类肖像而不是将其他无关组件的相似度增加到最大。

Jun, 2023

基于预训练 StyleGAN2 网络的无监督图像到图像的翻译

通过在预训练的 StyleGAN2 模型上进行一系列的模型变换，我们提出了一种新的图像到图像 (I2I) 转换方法，并提出了一种反演方法，以在源领域和目标领域之间进行 I2I 翻译。定性和定量评估证明了该方法在图像质量、多样性和与输入和参考图像的语义相似性方面具有优越性能，与最先进的作品相比。

Oct, 2020

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019