MMoT: 混合模态词元变换器用于组合多模态条件图像合成

May, 2023

MMoT: 混合模态词元变换器用于组合多模态条件图像合成

MMoT: Mixture-of-Modality-Tokens Transformer for Composed Multimodal Conditional Image Synthesis

Jianbin Zheng, Daqing Liu, Chaoyue Wang, Minghui Hu, Zuopeng Yang...

TL;DR提出了一种基于混合多模态令牌变换器的组合多模态条件图像合成技术，解决了多模态控制信号协调问题和不平衡问题，实现了在复杂多模态条件下的高质量和忠实的图像合成。

Abstract

Existing multimodal conditional image synthesis (MCIS) methods generate images conditioned on any combinations of various modalities that require all of them must be exactly conformed, hindering the synthesis controllability and leaving the potential of cross-modality under-exploited.

multimodal conditional image synthesis compositions of multimodal control signals mixture-of-modality-tokens transformer modality coordination problem modality imbalance problem

发现论文，激发创造

CMOT: 基于最优传输的跨模态 Mixup 语音翻译

该论文研究了语音翻译的跨模态任务，以及如何通过使用最优传输和跨模态混合等方法，来克服语音和文本之间的模态差异，从而提高翻译的准确性。实验结果表明，该方法比以往方法表现更优秀。

May, 2023

MCM：多情景多条件动作合成框架

多条件人体动作合成任务的目标是结合多样的条件输入，例如文本、音乐、语音等，使任务能够适应于多种场景，从文本到动作、音乐到舞蹈等。本文引入了 MCM 框架，通过与任何 DDPM 类扩散模型相结合，实现多条件信息输入，同时保持其生成能力。我们还引入了一种基于 Transformer 的扩散模型 MWNet 作为我们的主要分支，通过通道维度的自注意力模块捕捉运动序列中的空间复杂性和关节之间的相关性。定量比较表明，我们的方法在文本到动作任务中取得了 SOTA 结果，并在音乐到舞蹈任务中取得了竞争性结果，可与任务特定的方法相媲美。此外，定性评估表明，MCM 不仅简化了原本设计用于文本到动作任务的方法在音乐到舞蹈和语音到手势等领域的适应性，消除了对网络重构的需求，而且实现了有效的多条件模态控制，实现了 “训练一次，生成动作无限”。

Sep, 2023

通过多模态调节进行视频综合的展示和说明

使用多模态生成框架，结合文本和图像训练双向变压器等多重输入来预测离散视频表示，同时提供改进的样本视频代币和文本增广，以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态，可以通过文本提示生成对应视频，并在四个数据集上取得了最新的生成结果。

Mar, 2022

缺失模态插值的统一多模态图像合成

该论文提出了一种新的统一的多模式图像综合方法，包括通过生成敌对网络从任意可用模式的组合中合成丢失的模态，并使用共性和差异敏感编码器及动态特征统一模块来提高图像合成质量和适应性，实验结果表明该方法在处理多种综合任务时具有优越的性能。

Apr, 2023

MCM：多条件运动合成框架

提出了基于双分支结构的多条件人体运动合成（MCM）框架，其中主分支采用基于 Transformer 的扩散模型（MWNet），有效扩展了扩散模型的适用性，同时保持运动的固有质量和语义关联能力。在单条件和多条件人体运动合成任务中实现了有竞争力的结果。

Apr, 2024

为多模态 LLM 自动编码 Morph-Tokens

多模式 LLMs 的新方法利用形态标记解决了视觉理解和生成之间的冲突，并在多模式理解和生成中取得了 SOTA 结果。

May, 2024

M6-UFC: 基于非自回归生成变压器的多模态控制统一条件图像合成

本文提出了一个新的两阶段结构 M6-UFC，将多模态控制统一表示为离散符号序列，并采用了非自回归生成模式加强了图像整体一致性、支持保留指定的图像块并提高合成速度，通过设计的评估器评估合成结果的符合性和合成图像的可信度，M6-UFC 能够合成高保真度、符合灵活多模态控制的图像。

May, 2021

FM-ViT：面部反欺诈的灵活模态视觉变压器

本文提出了一种基于 Transformer 的框架，名为 Flexible Modal Vision Transformer (FM-ViT)，用于面部防欺骗，以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明，单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本，而且在较小的 FLOPs 和模型参数的情况下，也可以超越现有的单模态框架，并与多模态框架的性能相当。

May, 2023

MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法，其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别，采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌，进一步探索其丰富的模态间互动和效果，并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试（UCF-101，Something-Something-v2，Kinetics-600）上表现出超越现有技术的性能，既高效又精确。

Aug, 2021

TMT: 通过将不同形式阐述视为不同语言的三模式语音、图像和文本之间的翻译

我们提出了一种新颖的 Tri-Modal Translation（TMT）模型，它能够在语音、图像和文本之间进行任意模态的翻译，并通过将语音和图像数据标记为离散标记来统一界面并显著降低计算成本。通过在 TMT 中使用多模态编码器 - 解码器进行核心翻译，同时仅在标记化和解标记化阶段进行模态特定的处理，我们评估了所提出的 TMT 在六个模态翻译任务上的性能，并且 TMT 始终优于单模型对应物，表明统一任务不仅在实用性上有益，而且在性能上也有益。

Feb, 2024