一个模型，多种模态：文本、声音、图像、视频和代码的稀疏激活方法

May, 2022

一个模型，多种模态：文本、声音、图像、视频和代码的稀疏激活方法

One Model, Multiple Modalities: A Sparsely Activated Approach for Text, Sound, Image, Video and Code

Yong Dai, Duyu Tang, Liangxin Liu, Minghuan Tan, Cong Zhou...

TL;DR本文提出了一个能够优秀地处理多模态信息的模型，名为 SkillNet，其不同的参数部分专门用于处理不同的信息模态，并且可以稀疏激活模型参数的相关技能。我们使用自监督预训练方式对五种模态进行了开发，结果表明该模型表现与五个模态特定的微调模型相当。在汉语文本 - 图片检索任务中，我们的系统使用较少的激活参数数目，就实现了比现有优秀的 Wukong {ViT-B} 和 Wenlan 2.0 更高的准确性。

Abstract

People perceive the world with multiple senses (e.g., through hearing sounds, reading words and seeing objects). However, most existing AI systems only process an individual modality. This paper presents an approach that excels at handling multiple modalities of information with a single model. In our "{SkillNet}" model, different parts of the parameters are

multi-modal processing skillnet model self-supervised pretraining interpretable learning text-to-image retrieval

发现论文，激发创造

SkillNet-NLU: 用于通用自然语言理解的稀疏激活模型

本文提出 SkillNet-NLU 模型，将已有技能拼合起来学习新任务，与传统密集模型不同，SkillNet-NLU 只激活与目标任务相关的模型参数，采用稀疏激活预训练为 Natural Language Understanding 任务提供了性能显著的预测效果，甚至在新任务上也比其他强大的基线模型表现更好。

Mar, 2022

SkillNet-NLG: 一种稀疏激活法的通用自然语言生成器

我们介绍了 SkillNet-NLG，一种稀疏激活的方法，可以处理多种自然语言生成任务。该方法与传统的密集模型不同，SkillNet-NLG 仅选择激活与任务相关的参数，这由一组预定义的技能控制。实验结果表明，SkillNet-NLG 可以胜任五项任务中的四项，并且优于两种多任务模型和任务特定模型，同时也在适应新任务时表现出色。

Apr, 2022

SkillNet-X: 多语言多任务模型与稀疏激活技能

提出了一种名为 SkillNet-X 的多语言多任务模型，使用 Transformer 模型和技能模块，以利用目标任务和目标语言的相关知识，实现在不同语言和不同任务之间切换，相对于任务特定基准和两个多任务学习基准表现更好，并在几乎所有数据集上表现出了更好的性能。

Jun, 2023

4M-21：面向数十项任务和模态的任意到任意视觉模型

通过对多个多媒体形式进行联合训练和扩展，我们成功地提升了多模态模型的能力，并展示了训练一个模型以解决更多任务 / 多模态性的可能性，而不损失性能，从而实现更精细化和可控的多模态生成能力。

Jun, 2024

多模态体验启发的人工智能创作

基于多模态信息的序列到序列架构和课程负采样策略被设计，以解决基于人类经验生成文本的新问题，并在新的多模态体验数据集上进行了广泛的实验，取得了较大的改进。

Sep, 2022

多模态原型网络用于少样本学习

该论文提出了一种跨模态特征生成框架，利用文本数据来弥补计算机视觉任务中数据稀缺的不足，进而提高分类结果，并在实验中证明该方法的有效性。

Nov, 2020

多模态帮助单模态：利用多模态模型进行跨模态少样本学习

通过跨模态训练，结合视觉和语言信息，利用少量的训练样本和类名，建立了一个更好的狗狗分类器，并构建了第一个音视频少样本学习基准。

Jan, 2023

极端学习图像多模态深度网络压缩

本文提出了一种文字引导图像压缩的多模态机器学习方法，通过使用文本的语义信息来引导图像压缩，以实现更好的压缩性能，包括采用图像 - 文本注意力模块和改进的多模态语义一致性损失函数。实验证明，该方法能够在极低比特率下获得较好的视觉效果，并且即使与最先进的技术相比，其性能也可以相媲美或超越。

Apr, 2023

电子商务中基于多模态感知的知识预训练

该论文提出一种名为 K3M 的新方法，通过引入知识模态来进行多模态预训练，以解决实际 E-commerce 场景中的产品数据中存在的多模态噪声和缺失问题，并在真实世界的 E-commerce 数据集和一系列基于产品的下游任务上显示出明显的性能提升。

Aug, 2021

一比多注意力：可扩展多模态集成

提出了一种新颖的领域中性注意机制，称为 One-Versus-Others（OvO）注意力，可在不降低准确性的情况下降低计算复杂度，并显示与流行的融合技术相比具有更高的性能。

Jul, 2023