- 视觉 - 语言模型的对抗提示调整
通过引入 Adversarial Prompt Tuning (AdvPT) 技术,本研究旨在提升视觉 - 语言模型中图像编码器的对抗性鲁棒性,改善对抗攻击的脆弱性,并且结合现有的基于图像处理的防御技术,进一步提高其防御能力。
- 交替单模态适应的多模态表示学习
MLA 是通过交替的单模态适应过程改变传统联合多模态学习过程,减少模态之间的干扰,并通过共享头部实现跨模态交互,从而优化性能,在推理阶段利用基于不确定性的模型融合机制集成多模态信息。经过在五个不同数据集上的广泛实验,证明了 MLA 相对于竞 - Mirasol3B:面向时间对齐和上下文多模态自回归模型
我们提出了一种多模态模型 Mirasol3B,通过自回归机制,将多媒体输入分别处理并建模,同时使用分段和合并机制来处理视频和音频序列的长依赖性,从而实现了在多模态基准测试上的最佳结果。
- 量子跨平台验证的多模态深度表示学习
通过创新的多模态学习方法,本研究采用量子计算中数据形式的两种不同模态:测量结果和编译电路的经典描述,从而建立了一个全面的数据表示。通过对不同噪声模型的平台进行评估,结果显示相比随机测量,我们的方法在预测准确性上有三个数量级的提升,从而为跨平 - Octavius: 通过 MoE 减少 MLLMs 的任务干扰
通过介绍新颖且可扩展的框架 LaRA-MoE,本研究通过大型语言模型在多模态学习方面的综合研究和实验,展示了在各种二维和三维下游任务中设计的开创性的 LoRA-MoE 解码器的有效性和多样性(提升约 20%),以及更多其他模态和任务的导入在 - 感觉的力量:通过遮蔽式多模态学习从视觉和触觉中获得的通用操控
利用视觉和触觉信息在强化学习环境中联合学习策略和视觉触觉表示的蒙掩多模态学习(M3L)方法提高样本效率,并超越单个感官的泛化能力。
- 电子商务的无监督图像文本嵌入学习
通过扩展 BERT 模型,提出了一种用于学习来自不同形态的嵌入的无监督学习方法,通过构建全局表示来预测被标记的词和构造标记的图像块,该方法在搜索极其相似产品和预测产品类别的任务中相较于强基线模型获得了显著的增益。
- 时间嵌入:基于时空数据的可扩展无监督时序表征学习,用于多模态计算机视觉
地理空间活动与土地利用类型之间存在相关性。提出一种新颖的自监督方法,基于运动活动时间序列对景观进行分层。时间序列信号首先转换到频域,然后通过压缩自编码器转换为与任务无关的时间嵌入,该方法保留了时间序列中观察到的循环时间模式。通过深度语义分割 - 多模态图学习的生成任务
多模态图学习 (MMGL) 是一个通用、系统化的框架,用于捕捉具有关系结构的多模态邻居的信息并且在预训练的语言模型中增强其文本生成能力。
- HowToCaption: 规模化促使 LLMs 转化视频注释
利用大型语言模型从自动语音识别摘要中创建与视频对齐的细致视频描述,以达到大规模教学视频数据训练文本 - 视频模型的目的。这项工作应用于 HowTo100M 数据集的副标题,创建了一个新的大规模数据集 HowToCaption,其结果不仅显著 - 通过参数高效适应处理缺失模态的鲁棒多模态学习
使用多模态学习提高下游任务的性能,并通过简单且参数高效的自适应过程针对缺失的模态实现鲁棒性。
- 多模式学习的计算优势
人类感知本身具有多模态特性。同样地,当机器对经验世界进行解读时,它们的学习过程也应该是多模态的。最近在实证多模态学习方面取得的显著成功突显了理解这一范式的重要性。然而,多模态学习的坚实的理论基础长期以来一直困扰着该领域。本研究基于 Lu ( - 多模式学习理论
研究多模态学习算法的泛化性质,发现与单一模态学习相比,多模态学习可以达到更好的泛化界限,最多可以提高到 O (√n) 倍,其中 n 代表样本大小。
- VulnSense:基于图神经网络和语言模型的以太坊智能合约高效漏洞检测
本文介绍了 VulnSense 框架,一种基于图形和自然语言处理模型的多模态学习方法,用于高效地检测以太坊智能合约中的漏洞。该框架通过整合源代码、操作码序列和字节码提取的控制流图等三种智能合约特征,运用 Bidirectional Enco - PartSeg: 通过部位感知提示学习的少样本部分分割
使用 CLIP 等强大的预训练图像语言模型在很少标记样本的情况下,开发了一种名为 PartSeg 的新方法,用于基于多模态学习的少样本部件分割任务,该方法利用部件感知提示学习生成部件特定的提示,从而使 CLIP 模型更好地理解 “部件” 的 - 大型多语种模型在跨语言零样本多模态学习中的应用
提出 MPM,一种在低资源语言中训练大型多模态模型的有效训练范例,通过多语言语言模型对仅在英语图像文本数据上预训练的多模态模型实现跨语言的零样本学习,取得了比母语语言的图像文本数据训练的模型还要好的图像文本生成性能。
- 多模态学习的深度度量损失
我们介绍了一种新的多模态学习损失范式,根据模态的贡献将实例分组,以防止过拟合引起的低效学习,并高效优化多模态模型,实验证明我们的损失提高了最近模型的性能。
- 跨模态注意力多模态融合用于非小细胞肺癌(NSCLC)患者生存预测
提出了一种跨模态注意力多模态融合管道,用于整合非小细胞肺癌(NSCLC)患者生存预测的特定模态知识,相较于单一模态的组合方法,在实验中取得了 c - 指数为 0.6587 的结果,展示了从不同模态融合中融入特定知识的能力。
- ICCV跨领域富内容电商产品表征学习
通过引入名为 ROPE 的大规模 cRoss-dOmain Product Ecognition 数据集和 COPE 跨域产品表征框架,本文填补了富内容电子商务领域的空白,实现了不同媒体领域的统一产品表示和跨域产品识别,展示了 COPE 在 - 可视化提示的灵活模态人脸反欺诈
最近,基于视觉变换器的多模态学习方法被提出来改善人脸反欺诈系统的鲁棒性。然而,由于各种成像传感器的缺失模态,从真实世界中收集的多模态人脸数据往往是不完整的。在本文中,我们提出了 “视觉提示灵活多模态人脸反欺诈” (VP-FAS)的方法,通过