- 走向可控时间序列生成
时间序列生成(TSG)是在许多应用中不可或缺的一种关键技术,本文提出了一种针对数据稀缺情况的可控时间序列生成(CTSG)问题,并介绍了具有出色性能的 CTSG 框架 CTS 及其在生成高质量可控输出方面的应用。
- 一种结合变分自编码器和 Transformer 的新型分子生成模型
这项研究提出了通过结构和参数优化将 Transformer 和 VAE 两种模型相结合的方法,以处理多样化的分子。该模型在生成分子方面表现出与现有模型相当的性能,并且在生成未见结构的分子方面表现出远超卓越的性能。此研究通过 VAE 的潜在表 - 通过 Koopman VAEs 对规律和非规律时间序列数据的生成建模
基于 Koopman VAE 的新型生成框架,能够优化正常和不规则的时间序列数据,通过引入领域知识和动力系统理论工具,KVAE 在合成和真实时间序列生成基准测试中优于当前的 GAN 和 VAE 方法,并学习出更好地逼近实际分布的概率密度函数 - 手工制作和深度学习放射组学的非冗余组合:应用于胰腺癌早期检测
通过使用 VAE 提取 DLR 特征并最小化其与 HCR 特征之间的互信息,我们解决了学习与传统手工特征不冗余的深度学习放射组学 (DLR) 的问题,这些特征可与手工特征相结合并通过分类器预测胰腺癌的早期标志物,并验证了其在大型独立测试集上 - 利用反事实分析向医生解释机器学习决策
本研究提出一种基于变分自编码器的反事实生成方法,以改进机器学习模型在医疗领域中的解释性问题,并生成更加逼真、相关的反事实情景。
- 一种多模态动态变分自编码器用于音视频语音表征学习
本文介绍了一个多模态和动态 VAE(MDVAE),应用于无监督学习音频 - 视觉语音表示。实施时,结构化的潜在空间旨在将共享于两种模态之间的动态潜在因素与各自模态的动态和静态信息分离,采用两阶段训练方法,并通过对音频 - 视觉数据集进行实验 - BrainCLIP:基于 CLIP 框架的大脑和视觉 - 语言表示连通,用于基于 fMRI 的自然视觉刺激解码
本文提出了一种跨模态的大脑解码模型 BrainCLIP,通过将图像和文本监督在语义空间中相结合,将 fMRI 模式转换为 CLIP 嵌入空间,实现了自然图像的高级特征还原和语义解码。
- 非参数变分信息瓶颈下的变压器变分自编码器
本文提出了一种基于变分信息瓶颈的变分自编码器(VAE)改进方法,用于 Transformers 的嵌入空间优化,通过 Bayesian nonparametrics 方法获得非参数的变分信息瓶颈(NVIB)以规范注意机制支持的向量数量和向量 - DiVAE:具有去噪扩散解码器的真实感图像合成
该研究提出了一种使用 VQ-VAE 和扩散解码器的 DiVAE 图像生成模型,相关实验结果表明该模型能够生成高度逼真的图像,特别适用于条件综合任务。
- ICML无监督深度隐式粒子图像表示学习
提出一种新的视觉数据表示方法 Deep Latent Particles (DLP),其中用空间 - softmax 和 Chamfer 距离先验驱动学习生成低维潜在颗粒表示,并表明其对多个动态对象构成的场景视频预测等下游任务具有实用性,同 - AdaVAE: 在变分自编码器中探索自适应 GPT-2 用于语言建模
本研究提出了第一个使用自适应 GPT-2 模型增强的 VAE 框架,它不仅能够进行代表学习和文本生成,还能够在多个相关任务中有效组织语言。
- CVPR利用未标记数据进行基于手绘的理解
该研究探讨了使用无标签数据来改善基于素描的模型的方法,通过对 VAE 和半监督 VAE 的变化进行评估,并提出了 BYOL 的扩展来处理素描,结果表明 sketch-BYOL 的效果优于其他自监督方法,提高了已知和未知类别的检索性能。此外, - 使用联合变分自编码器改进远场语音识别
本文主要研究匹配情况下的语音增强问题,提出了一种基于联合 VAE 映射的方法,将远场的语音特征转换为近距离的特征,实验结果表明,改进的方法比 DA 方法和直接使用远场特征训练 AM 的方法分别在 WER 上提高了 2.5% 和 3.96%。
- 深度对比潜变量模型的动量匹配
本文提出一种基于最大平均差异的对比 VAE 模型,用于隔离数据集中与任务有关的变异,提高对比分析性能。经过对三个具有挑战性的对比分析任务的定量与定性分析,本方法相较于之前的最新技术有更好的表现。
- 多样性感知图像生成
本文提出了一种基于核函数的度量表示方法,该方法能够从目标度量中近似得到新的对象,从而比生成对抗网络(GAN)和变分自编码器(VAE)等算法产生更多多样化的图像。
- PortaSpeech: 便携式高质量生成式语音合成
提出了一种轻量级的生成式文本到语音(text-to-speech)模型 PortaSpeech,提高了合成语音的真实性和抗扰动性,并且在主观和客观的评估指标上表现最佳,其模型参数数目仅为 FastSpeech 2 的四分之一。
- ICML生成模型的可证明利普希茨证书
提出了一种可扩展的技术,用于上界生成模型的 Lipschitz 常数,该方法使用 zonotope 对可达向量雅可比积的集合进行逐层凸逼近来近似该数量,扩展到具有较大输出维度的神经网络的 Lipschitz 估计,为小网络提供有效和紧密的边 - Multi-VAE: 学习多视角聚类的视角间分离与共通视觉表示
本研究提出了一种基于 VAE 的多视图聚类框架 (Multi-VAE),通过学习解缠视觉表示来实现高效的多视图聚类。实验表明,Multi-VAE 在获得解缠和可解释的视觉表示的同时,与现有方法相比,获得了更好的聚类性能。
- ICCV基于 Transformer VAE 的带动作条件的 3D 人类动作合成
本文介绍了一种运用 VAE 和 Transformer-Based 架构实现人体运动序列的有条件生成,以及改进行为识别和降噪等两种应用。
- 极深的 VAE 可以推广自回归模型并在图像上优于它们
本文提出了具有层次结构的 VAE,并且在所有自然图像基准上,它比 PixelCNN 更快地生成样本的同时在对数似然上表现更好。我们通过将 VAE 的随机深度比以前探索的更深来测试不足深度是否会导致 VAE 性能下降。与 PixelCNN 相