- CVPRBlur2Blur: 未知域上无监督图像去模糊的模糊转换
本研究提出了一种创新的框架,旨在训练一个针对特定相机设备的图像去模糊算法,该算法通过将难以去模糊的模糊输入图像转化为更加易于去模糊的另一个模糊图像来工作。该模型基于一个模糊到模糊的转换过程,利用目标相机设备捕获的清晰和模糊图像的非配对数据。 - 元转换器:多模态学习的统一框架
通过使用冻结的编码器以及共享的令牌空间,Meta-Transformer 提出了一个框架,可以在 12 种不同的模态间进行统一学习,并处理多种任务,展现了转换器在发展统一多模态智能方面的潜力。
- 使用去噪反向翻译提升级联无监督语音翻译
我们提出了一种基于叠层系统的语音翻译方法,使用全非配对数据训练了我们的无监督系统,并采用去噪回译法提高翻译结果。研究结果显示,我们的方法可以有效解决低资源语言数据难以获取的问题,并在某些语言对上表现出可比较的效果。
- EMNLP通过对带标签数据进行对抗传输进行半监督图像字幕生成
提出了一种半监督学习方法,使用对抗式学习来为未配对的样本分配伪标签,提升图像字幕模型的泛化性能,并展示了该方法在不同场景下都有较为明显的性能提升,包括关系字幕和网络爬虫数据。
- 一种利用非配对语音和文本进行低资源自动语音识别的补充联合训练方法
本篇论文介绍了如何利用未配对的语音和文本数据,通过生成相应的缺失部分进行模型训练,并提出了一种称为 CJT++ 的补充联合训练方法,包括伪标签的标签掩蔽和合成音频的梯度限制,以应对与真实数据的偏差。实验结果表明,相比于仅使用语音进行训练,所 - 灵活的分段曲线估计在照片增强中的应用
本文介绍了一种名为 FlexiCurve 的新方法用于照片增强,该方法相对于现有方法具有更高的效率和灵活性。
- 通过基于亮度引导的网络在非配对数据训练下进行阴影去除
本文提出了一种基于轻度信息引导的深度学习方法,分为两个 CNN 模块完成去阴影操作,通过非配对数据的训练达到了优于现有方法的效果。
- EMNLP基于模板先验的低资源响应生成
该研究讨论使用有限的消息 - 响应数据学习开放域响应生成,提出了一种使用配对数据和非配对数据进行响应生成的方法,其中使用的生成模型由编码器 - 解码器和隐藏半马尔可夫模型组成,该方法在少量数据情况下能够显著优于现有最先进的响应生成模型。
- ICCV多模态信息瓶颈下的非配对式图像语音合成
本篇研究使用深度生成模型解决一种新的问题,即无配对数据下,跨模气物体生成的问题,该研究提出了一种跨模态生成方法,称为 skip-modal generation。通过学习共享模态下的多模概念瓶颈方法,该法实现了基于图片生成语音的跨模态生成, - ICCVMask-ShadowGAN: 学习从非成对数据中去除阴影
本文提出了一种新的阴影去除方法,使用非配对数据,不仅避免了繁琐的注释,还能够获得更多样化的培训样本。该研究使用了 Mask-ShadowGAN 框架,通过重新定义的循环一致性约束实现自动学习产生阴影屏蔽层,用于对阴影图像的生成进行指导,这在 - ICCV通过场景图对齐进行非配对图片描述
本研究提出了一种基于场景图的方法来进行非配对图像描述,用于生成不需要图像 - 文字配对的结果,显著超过现有方法的表现。
- 端到端语音识别的循环一致性训练
该论文介绍了一种使用未配对数据训练端到端自动语音识别模型的方法,并提出了一种基于语音编码器状态序列而非原始信号的损失来解决在中间文本瓶颈中丢失基本信息的问题,通过对 LibriSpeech 语料库的实验结果表明,这种循环一致性训练可以将单词 - 使用结构约束 CycleGAN 进行非配对脑 MR 到 CT 的合成
本文针对 cycleGAN 在医学图像合成中普遍存在的结构一致性问题,提出了一种基于无配对数据的结构约束 cycleGAN 方法,使用基于模态无关邻域描述符的额外结构一致性损失来约束结构一致性,并采用基于位置的选择策略进行训练图片的选择,实 - 半监督训练以提高端到端语音合成的数据效率
本文提出了一种半监督的训练框架来提高 Tacotron 数据效率,通过利用大量的公开文本和语音语料库的文本和声学知识,该框架使 Tacotron 能够使用不到半小时的配对训练数据生成可理解的语音。
- 深度视频表演克隆
提出了一种新的基于视频的性能克隆技术,该技术使用深度生成网络训练目标演员的外观和动态,能够生成视频,其中该演员重新演绎其他表演。
- CVPR条件图像翻译
本文研究了一种新的有条件的图像翻译方法,并基于 GAN 和双学习处理了无成对数据的问题。实验结果表明该方法有效。
- 曝光:白盒照片后处理框架
本研究提出了一种基于深度学习的自动修饰系统,该系统使用强化学习方法学习如何根据用户喜好风格对输入图片进行不同的修饰操作,从而避免了获取成对的训练数据。与其他深度学习系统不同的是,该系统提供了可理解的修饰结果,而不仅仅是黑盒子结果,定量比较和 - ICCV展示、适应和述说:跨领域图像描述器的对抗训练
本研究提出了一种利用对抗训练和未匹配数据进行跨域图像字幕生成的方法,使用两个评论家网络来指导生成器,并在训练期间通过政策梯度更新来提高生成器性能,并在推理时进一步提出了一种评论家规划方法,无需附加监督进行句子选择。实验表明该方法在多个数据集 - 使用变分自编码瓶颈网络和 Wasserstein 生成对抗网络从不对齐语料库进行语音转换
该论文提出了一种基于 VAW-GAN 的非平行语音转换框架,可以用于从未对齐的语音语料库中构建语音转换系统,并展示了该框架的有效性和提升的转换质量。