- ICCV重新挖掘、学习和推理:探索跨模态语义相关性用于语言引导的 HOI 检测
通过结构化文本知识,我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测,通过分析相互作用信息的损失并生成更全面的视觉表示,设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题,进而 - 元转换器:多模态学习的统一框架
通过使用冻结的编码器以及共享的令牌空间,Meta-Transformer 提出了一个框架,可以在 12 种不同的模态间进行统一学习,并处理多种任务,展现了转换器在发展统一多模态智能方面的潜力。
- PAT:用于越南语视觉问答的并行注意力变形器
本文提出了一种称为 “Parallel Attention 机制” 的多模态学习新方案,并提出了 Hierarchical Linguistic Features Extractor 来提取语言特征,最终成功将这两个模块结合应用到了基准数据 - 视觉语言理解的情境提示学习
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
- S-Omninet: 结构化数据增强的通用多模态学习架构
本文扩展和改进了 Omninet 体系结构,引入了交叉缓存注意力、整合视觉输入的补丁嵌入和支持结构化数据,提出了增强型结构化数据 Omninet (S-Omninet) 模型,能够通过交叉缓存注意力和补丁嵌入在各维度的结构化数据和非结构化数 - SHARCS:可解释多模态学习的共享概念空间
本文介绍了一种基于共享概念空间(SHARCS )的可解释的多模态学习方法,该方法能够将来自不同异构模态的可解释的概念学习和映射到单个统一的概念流形中,从而得出具有内在解释能力的任务预测,同时提高下游预测性能,并在检索缺失模态和跨模态解释等方 - 深度均衡多模态融合
本文提出了一种通过寻求动态多模式融合过程的固定点并以适应性和递归的方式建模特征相关性的新型深度平衡(DEQ)方法,从低级到高级彻底编码了跨模态信息,取得了多个多模态基准的最先进性能。
- 替代性伸缩位移测量:一种高效的多模态对齐方法
提出了一种特征对齐方法,该方法完全融合了多模态信息,可以稳健地捕捉不同模态特征之间的高级交互作用,从而显著提高多模态学习的性能,实验评估结果表明该方法达到了最先进的性能水平。
- 学习未见过的模态交互
本文针对多模态学习的完备性假设提出挑战,提出一种基于特征投影模块的解决方案,在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明,该方法对于各种任务和模态具有很好的效果。
- 低资源环境下基于视觉支撑的少样本词汇学习
本研究提出了一种视觉语音模型,能够通过少量的图像和单词样本来学习新词汇及其视觉描述,并通过多模式少量样本的学习在低资源语言 Yoruba 中取得更好的表现。
- MSVD-Indonesian: 一种用于印度尼西亚多模式视频文本任务的基准
本文介绍了开发第一个印象尼西亚视频文本数据集的方法,并使用交叉语言迁移学习来改进三个任务的表现,即文本到视频检索,视频到文本检索和视频字幕生成。
- KDDFedMultimodal: 多模联邦学习基准测试
引入 FedMultimodal,它是第一个 FL 基准,用于多模态学习,覆盖了来自十个常用数据集的五个代表性多模态应用程序,总共有八种独特方式。与现有的 FL 基准不同,FedMultimodal 提供了一种标准化方法来评估 FL 对实际 - MultiEarth 2023 多模式学习地球和环境研讨会与挑战赛
本文介绍了 MultiEarth 2023 国际会议的挑战指南、数据集和评估指标,以促进多模态学习与遥感数据处理等技术在环境监测中的应用
- ICMLMEWL:具有指代不确定性的少样本多模态单词学习
介绍了 MachinE Word Learning(MEWL)基准测试,用于评估机器在基于视觉场景的单词学习中的表现,涵盖了交叉情境推理、自举和语用学习三个方面,通过与人类表现的比较分析发现人类与机器的单词学习存在显著差异,并呼吁机器实现人 - PandaGPT:一种模型以指导全为本
PandaGPT 是一个使用视觉和听觉指令的方法来提高大型语言模型的能力,可以同时接收多模态输入并进行自然的语言生成,它能够执行任务如生成详细的图像描述和根据视频撰写故事等,并能连接图像 / 视频中物体的外观和音频中物体的声音,从而表现出跨 - 图像引导故事结尾生成的迭代对抗攻击
本研究提出了一种迭代的对抗攻击方法(Iterative-attack),该方法融合了图像和文本攻击,可以更有效地搜索对抗性的文本和图像,从而提高多模态文本生成模型的对抗鲁棒性。实验结果表明,该方法优于现有的单模态和非迭代多模态攻击方法,这表 - ACLUniS-MMC: 多模态分类方法,通过单模态监督的多模态对比学习
本文提出了一种新的多模态对比方法,以无单模预测的弱监督下探索更可靠的多模态表示,实验证明该方法优于当前最先进的多模态方法,适用于图像 - 文本分类。
- 通过精细面部深度生成和 RGB-D 互补特征学习来提高 2D 面部识别
本文提出了一种 Fine-grained 面部深度生成网络和改进的多模式补充特征学习网络,实验结果表明,该方法可提高 RGB-D 面部识别的准确性并实现最先进性能。
- 通过相关最大化和最小化实现多模态理解
使用 Multimodal Understanding Through Correlation Maximization and Minimization(MUCMM) 框架,该框架可以轻松地嵌入到任何预训练网络中,学习模态数据的常见和个体 - ACLFormNetV2:面向表单文件信息提取的多模态图形对比学习
FormNetV2 引入了一种集中的多模态图形对比学习策略,将自监督预训练统一为一个损失,通过提取与图形边缘相连的一对令牌之间的边界框内的图像特征,捕捉更有针对性的视觉线索,从而在 FUNSD、CORD、SROIE 和 Payment 基准