多模态、多任务、可解释的模块化网络

Sep, 2023

多模态、多任务、可解释的模块化网络

MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks

Vinitra Swamy, Malika Satayeva, Jibril Frej, Thierry Bossy, Thijs Vogels...

TL;DRMultiModN 通过融合多种数据类型的潜在表示，提供了对多个预测任务的实时反馈，解释性好且对缺失数据具有鲁棒性，同时不影响性能。

Abstract

Predicting multiple real-world tasks in a single model often requires a particularly diverse feature space. Multimodal (MM) models aim to extract the synergistic predictive potential of multiple data types to create a shared feature space with aligned semantic meaning across inputs of drastically varying sizes (i.e. images, text, sound). Most current MM arch

multimodal models latent representations predictive tasks missing not-at-random (mnar)granular insights

发现论文，激发创造

动态多模态融合

本文提出了一种动态多模态融合的方法，可以在预测过程中根据数据的不同需求自适应地融合多模态数据，从而有效地减少计算成本，并在多个多模态任务上获得了良好的效果，这为动态多模态网络设计开辟了一条新的方向。

Mar, 2022

多模态神经数据库

本文提出了一种新的框架，即多模态神经数据库（MMNDBs），用于回答涉及不同输入模式（如文本和图像）的复杂类似数据库的查询，通过多媒体信息检索和多模态深度学习技术的结合，MMNDBs 能够处理来自不同模式的非结构化数据，为该领域的未来研究铺平了道路。

May, 2023

深度多模态神经架构搜索

本文提出了一种深度多模态神经网络架构搜索（MMnas）框架，通过使用基于梯度的 NAS 算法，可以高效地学习不同任务的最佳架构，并设计了一个统一的编码器 - 解码器骨干网络，其中每个编码器或解码器块对应于从预定义的操作池中搜索出来的操作，以及面向不同多模态学习任务的特定头部。实验结果表明，MMnasNet 在三个多模态学习任务上显着优于现有的最先进方法，包括视觉问答、图像文本匹配和视觉定位。

Apr, 2020

多模态图学习的生成任务

多模态图学习 (MMGL) 是一个通用、系统化的框架，用于捕捉具有关系结构的多模态邻居的信息并且在预训练的语言模型中增强其文本生成能力。

Oct, 2023

教师引导的组合视觉推理的多模态表示

通过利用跨模态特征和更有效的训练技术，加强了神经模块网络在视觉问答中的性能和透明度。

Oct, 2023

MMTM:CNN 融合的多模态转移模块

本文提出了一种简单的神经网络模块，名为 Multimodal Transfer Module（MMTM），它能够在 CNN 特征层次结构的不同层级上进行慢速模态融合，利用多模态知识校准每个 CNN 流中的通道特征，用于特征模态融合的卷积层具有不同的空间尺寸。该方法具有最小的网络结构更改，可用于初始化每个分支的现有预训练权重，实验结果显示，我们的框架提高了知名多模态网络的识别准确性。

Nov, 2019

基于多粒度信息融合的社交媒体多模态假新闻检测

文章介绍了一种用于检测假新闻的多粒度多模态融合网络模型，并将模型性能与现有方法进行了比较。

Apr, 2023

多模导向网络用于缺失模态推断

提出了一种通过引导网络在训练阶段促进知识共享，利用多模式表示训练用于推理的更好的单模式模型，以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明，所提出的框架训练的单模式模型明显优于传统训练的模型，并且推理成本相同。

Sep, 2023

循环多阶融合的多模态语言分析

本研究提出了一种名为 RMFN 的循环多阶段融合网络，该网络以多元信号为输入，通过多个阶段递归地融合特定的信号子集，结合了循环神经网络以建模时间和模态内交互、建模跨模态交互。经实验证明，RMFN 在情感分析、情感识别和说话人特征识别等多模态任务上可以达到最先进的性能，并通过可视化方法证明了每个融合阶段都集中于不同的多模态信号子集上。

Aug, 2018

一种基于图形的多模态融合编码器在神经机器翻译中的应用

本论文提出了一种新型的基于图的多模态融合编码器，用于多模态神经机器翻译（NMT）中利用不同模态语义单元之间的细粒度语义对应关系，以优化多模态表示学习，并在 Multi30K 数据集上验证了模型的卓越性能。

Jul, 2020