多模态信息瓶颈下的非配对式图像语音合成

ICCVAug, 2019

多模态信息瓶颈下的非配对式图像语音合成

Unpaired Image-to-Speech Synthesis with Multimodal Information Bottleneck

Shuang Ma, Daniel McDuff, Yale Song

TL;DR本篇研究使用深度生成模型解决一种新的问题，即无配对数据下，跨模气物体生成的问题，该研究提出了一种跨模态生成方法，称为 skip-modal generation。通过学习共享模态下的多模概念瓶颈方法，该法实现了基于图片生成语音的跨模态生成，并在此基础上改进了传统的跨模态生成方法，证明了其在提高数据效率方面的优点。

Abstract

deep generative models have led to significant advances in cross-modal generation such as text-to-image synthesis. Training these models typically requires paired data with direct correspondence between modalities. We introduce the novel problem of translating instances from one modali

deep generative models skip-modal generation multimodal information bottleneck unpaired data image-to-speech synthesis

发现论文，激发创造

语音和图像的多模态单样本学习

研究机器人如何通过视觉和语音标签来学习多模态单样本匹配任务，并且提出了几种基线和高级模型，最后通过在配对的语音和视觉数字数据集上进行实验说明了 Siamese 卷积神经网络在 11 种跨模态匹配方面的卓越性能。

Nov, 2018

语音语言模型的指导数据生成和无监督适应

我们提出了三种方法来生成合成样本，以训练和评估能够处理文本和语音输入的多模态大语言模型。通过解决包含多种模态的样本的稀缺性问题，合成数据生成成为提高这些系统性能并促进语音和文本领域的跨模态关系建模的关键策略。我们使用大型语言模型生成文本组件和文本到语音系统生成语音组件的过程。所提出的方法提供了一种实用且有效的扩展这些模型训练数据集的方式。实验结果表明，在理解文本和语音方面取得了进展。我们还强调了使用未标注的语音数据来生成质量可与有可用转录的样本媲美的合成样本的潜力，从而使这些模型能够更多地应用于其他语言。

Jun, 2024

通过视觉和语音进行多模式机器翻译

本文综述了多模式机器翻译的重要数据资源、评估活动、端到端及管道方法的最新成果，以及在绩效评估方面面临的挑战，并讨论了这些领域未来研究的方向。

Nov, 2019

潜在翻译：通过连接生成模型跨越模态

本篇论文提出了一种基于先前训练的深度生成模型，利用潜变量空间进行无监督跨模态域迁移的新方法，并探索了通过学习一个后续接口来提高模块性的可能性。通过定量和定性的实验证明了该方法的有效性，证明了在迁移过程中局部性和语义对齐得到了保留，而且通过这种模块化结构可以大大加快新接口模型的训练速度。

Feb, 2019

无监督多领域多模态图像到图像转换与显式领域约束解耦

本文提出了一个使用无成对训练数据和单个网络同时训练不同域的多个数据集来学习生成多样化输出的统一框架，并研究了如何更好地提取域监督信息以学习更好的分离表征和实现更好的图像翻译的方法。实验表明，所提出的方法优于或与最先进的方法相当。

Nov, 2019

缺失模态插值的统一多模态图像合成

该论文提出了一种新的统一的多模式图像综合方法，包括通过生成敌对网络从任意可用模式的组合中合成丢失的模态，并使用共性和差异敏感编码器及动态特征统一模块来提高图像合成质量和适应性，实验结果表明该方法在处理多种综合任务时具有优越的性能。

Apr, 2023

多模态无监督图像到图像的翻译

本研究提出了一种多模态无监督图像到图像的翻译框架 (MUNIT)，该框架可以将图像表示分解为内容代码和风格代码，从而能够生成来自给定源域图像的多样性输出，并能够通过提供示例样式图像来控制翻译输出的风格。该框架在对比最先进的方法的基础上，通过大量实验证明了其优势。

Apr, 2018

高效的多模态扩散模型：联合数据填充与部分共享 U-Net

通过使用部分共享 U-Net (PS-U-Net) 架构及新的有效的多模态采样方法，本研究成功开发出高质量的多模态文本和图像数据生成模型，同时具备与现有模型相比相当的大小、更快的训练速度、更快的多模态采样以及更灵活的生成。

Nov, 2023

无监督多模态神经机器翻译

本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法，通过图像识别加强双向多模态翻译的学习效果，在 Multi30K 数据集上与传统基于文本的神经机器翻译相比，本方法有更好的实验结果。

Nov, 2018

理解和弥合语音翻译的模态差距

本文研究对于 ST 和 MT 之间的通道差，提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值，使用采样和不同训练权重来处理难以处理的情况，实现了在 MuST-C 数据集的八个方向上取得了显著效果。

May, 2023