Zipper：融合多模式的多塔解码器架构

May, 2024

Zipper：融合多模式的多塔解码器架构

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

Vicky Zayats, Peter Chen, Melissa Merrari, Dirk Padfield

TL;DR使用跨注意力机制灵活地组合独立预训练的单模态解码器，提出了一个称为 Zipper 的多塔解码器架构，解决了整合不同模态训练的多个生成基础模型的挑战。在融合语音和文本模态的实验中，我们展示了该架构在具有有限对齐文本 - 语音数据的场景中表现出很强的竞争力。我们还展示了模型的灵活性，在跨模态任务中通过冻结对应的模态塔（例如文本），以选择性地保持单模态（例如文本到文本生成）生成性能。在输出模态为文本的跨模态任务中，如自动语音识别（ASR），我们展示了冻结文本主干对性能的几乎没有影响。在输出模态为语音的文本到语音生成（TTS）任务中，我们展示了使用预训练的语音主干相比基准模型能够获得更好的性能。

Abstract

Integrating multiple generative foundation models, especially those trained on different modalities, into something greater than the sum of its parts poses significant challenges. Two key hurdles are the availability of aligned data (concepts that contain similar meaning but is express

generative foundation models multimodal generative models cross-attention text-speech data cross-modal tasks

发现论文，激发创造

交叉编织多模态编码器

本文提出了一种新的多模态语音和文本输入结构，使用多头交叉注意力结合预训练语音和文本编码器，并在目标问题上联合微调。所得的编码器可用于连续的令牌级别分类或对同时文本和语音进行话语级别的预测，并高效地捕获声学 - 韵律和词汇信息。

Apr, 2022

零對應跨模態轉換的模塊化語音轉文本翻譯

通过独立训练的编码器和解码器，通过共享的固定大小表示组合，可以在语音到文本翻译中取得竞争力的性能，本研究表明这种方法可以通过多语种训练进一步改进，我们观察到在零 - shot 跨模态语音翻译中显著提高，甚至在几种语言上胜过基于 XLSR 的有监督方法。

Oct, 2023

BridgeTower: 视觉 - 语言表示学习中编码器之间桥梁的构建

本文提出了一种名为 BridgeTower 的 Vision-Language (VL) 模型，通过引入多个桥接层，利用来自预训练 Uni-modal 编码器的不同语义级别的视觉和文本表示实现了有效的从下到上的跨模态对齐和融合，在仅使用 4M 张图像的情况下，BridgeTower 在各种下游视觉 - 语言任务中实现了最先进的性能。

Jun, 2022

在单个 GPU 上的数据有效多模态融合

FuseMix 是一种多模态增强方案，在任意预训练的单模态编码器的潜空间上操作，通过使用 FuseMix 进行多模态对齐，我们以远低于 CLIP 的计算和数据成本，在图像 - 文本和音频 - 文本检索任务中实现具有竞争力的性能。

Dec, 2023

UniXcoder：面向代码表示的统一跨模态预训练

本文提出了一种统一的跨模态预训练模型 UniXcoder，使用前缀适配器控制模型行为并使用语法树和代码注释等交叉模态内容来增强代码表示。同时，利用多模态内容进行对比学习以学习代码片段代表，并使用跨模态生成任务在编程语言之间进行表示的对齐。该模型在五个代码相关任务上取得了最先进的结果，而注释和 AST 可以增强该模型。

Mar, 2022

T-Modules: 零样本跨模态机器翻译的翻译模块

该论文提出了一种新的零样本跨模态翻译方法，通过将多语言语音和文本编码到联合的固定大小的表示空间中，然后比较不同的解码方法以实现跨语言和模态的零样本翻译。尽管有着固定大小的表示空间，但在多个文本和语音翻译任务中取得了非常好的结果，特别是在 Must-C 上零样本语音翻译部分显著改善了最新技术的表现。在该方法的框架中，引入了一个语音解码器，实现了零样本直接语音到语音和文本到语音的翻译。

May, 2022

MoMo: 一种用于文本、图像和多模态表示的共享编码器模型

本文提出了一种自主监督的共享编码器模型，在数据、内存和运行时效率高的同时，在几个视觉、语言和多模式基准测试中取得了强大结果。

Apr, 2023

双向图像与文本生成统一多模态转换器

本文研究了图片到文本和文本到图片生成的联合学习，使用了基于 Transformer 的单个多模式模型来统一学习双向任务，并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架，实验证明，该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID（37.0→29.9）和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分（100.9%→122.6%）。

Oct, 2021

多模态融合中的注意力瓶颈

本篇论文介绍了一种基于 transformer 的新颖架构，使用多层的融合瓶颈来进行多模态融合，实现了在多个音视频分类基准测试上的最新的结果，同时降低了计算成本。

Jun, 2021

Zipformer：一种更快、更好的自动语音识别编码器

我们提出了一种更快、更节省内存、性能更好的变压器模型 Zipformer，它通过在 U-Net 类似的编码器结构中进行中间堆栈的操作以较低的帧速率工作，重新组织块结构以提高效率，使用 BiasNorm 的修改形式来保留一些长度信息，新的激活函数 SwooshR 和 SwooshL 的表现优于 Swish，通过一个名为 ScaledAdam 的优化器进行更新尺度的调整，相对变化保持大致相同，并明确学习参数尺度，在 LibriSpeech、Aishell-1 和 WenetSpeech 数据集上进行了大量实验，证明了我们提出的 Zipformer 在与其他最先进的 ASR 模型相比的有效性。

Oct, 2023