- ICC:用于多模态数据集策划的图像标题具体化量化
我们提出了一种新的度量标准 —— 图像标题具体性,用于在多模态学习中评估无图像参考的标题文本的具体性和相关性,该方法利用强基模型衡量多模态表示中的视觉 - 语义信息损失,我们证明这与人类对单词和句子级文本具体性的评估强相关,同时我们展示出使 - 通过图像感知的属性缩减进行视觉对位的对抗性测试
通过减少与图像不相关的信息,保留原始表达的关键信息,并确保减少的表达仍然能够唯一描述图像中的原始对象,我们提出了一种名为 PEELING 的文本扰动方法,用于对 VG 模型进行敌对测试。
- AAAI基于梯度引导的模态解耦用于缺失模态的鲁棒性
本文介绍了一种使用渐变指示器和梯度引导方法来解决多模态学习中的缺失模态和模态主导性的问题,同时设计了一种动态共享框架来处理模态不完整的数据,并在三个多模态基准数据集上进行了实验证明了该方法的有效性。
- FedMM:计算病理学中具有模态异质性的联邦多模态学习
提出并评估了一种名为 FedMM 的联邦多模态学习框架,该框架通过联邦训练多个单模态特征提取器来增强后续分类性能,以解决计算病理学中多模态信息融合的隐私问题。
- 基于数据中心视角的高效多模态学习
通过探索更加信息丰富的训练数据,本文演示了击败规模定律并训练出更小但更强大的轻量级多模态大语言模型 Bunny,其背后利用了灵活的视觉和语言基础模块进行高效的多模态学习。
- 基于文本的多模态学习对齐
该研究论文针对多模态学习中的模态不匹配问题,提出了一种创新方法,即文本为中心的多模态学习对齐(TAMML)方法。通过利用文本的独特特性作为统一的语义空间,TAMML 在处理未见过的、多样化的和不可预测的模态组合时取得了显著改进。TAMML - 将触觉与一切相连:学习统一的多模态触觉表征
通过与预训练的图像嵌入相关联,UniTouch 统一了视觉为基础的触觉传感器与其他多种模态之间的关系,并引入了可学习的传感器特定标记,使模型能够同时从一组异构触觉传感器学习,从而在零样本设置下进行各种触觉感知任务。UniTouch 是第一个 - 多模态情感分析的三重解耦表示学习
通过三重解缠绑方法,TriDiRA,从输入数据中解释了模态不变、有效模态特定和无效模态特定的表示,并且通过融合仅模态不变和有效模态特定的表示,可以显著减少模态之间无关和冲突信息对模型训练的影响。在四个基准数据集上进行的大量实验证明了我们三重 - 多模态任务的动态 Transformer 架构
我们提出了一种基于 Transformer 的持续学习框架 TAM-CL,用于学习涉及视觉和语言的多模态任务,并通过引入额外参数和知识蒸馏实现任务间的信息交流,以及解决灾难性遗忘问题。该方法在多种挑战性的多模态任务上达到了最先进的性能。
- 利用口碑文本和人口统计学的多模态深度学习预测客户评分:在市场营销中处理消费者异质性
本研究构建了一个产品评价模型,通过多模态学习在线产品评价和消费者个人信息,考虑了消费者异质性,同时比较了不同模态或超参数的多个模型,以展示多模态学习在营销分析中的稳健性。
- 多模态医学图像分割的互补信息共学习
这篇论文介绍了一种互补信息相互学习(CIML)框架,通过数学建模和处理跨模态冗余信息的负面影响,它将多模态分割任务分解成多个子任务,并通过信息传递来从其他模态中提取信息,以有效地去除冗余信息,提高验证准确性和分割效果。
- 多模态癌症生存预测的原型信息瓶颈化与解缚
多模态学习对癌症生存预测有重要影响,尤其是病理图像和基因组数据的整合。本文提出了一种新的框架,用于解决多模态数据中的冗余性问题,并在五个癌症基准数据集上进行了广泛实验,证明其在其他方法上的优越性。
- 推进生成人工智能:科学教育中多模态大语言模型的变革性作用
通过呈现示例创新的学习场景,探索了多模态大语言模型 (MLLMs) 在科学教育的核心方面的转变作用,包括文本创作、个性化学习支持、培养科学实践能力以及提供评估和反馈。同时,强调了在实施 MLLMs 时采取平衡的方法的必要性,确保技术对教育者 - 从 Google Gemini 到 OpenAI Q*(Q-Star): 改变生成性人工智能(AI)研究领域的调查
这篇综述论文全面调查了生成人工智能领域的发展现状,特别关注了专家混合模型、多模态学习以及人工通用智能的变革性影响。它批判性地研究了生成人工智能方面当前的状况和未来的发展轨迹,探讨了像谷歌的 Gemini 和 OpenAI Q * 等创新如何 - 基模型推理综述
发展基础模型的探索性研究目前取得了最新的进展,其涉及推理任务、多模态学习和自主智能代理等未来研究方向,为人工智能的发展做出了贡献。
- RedCore:相对优势感知的跨模态表示学习:针对不平衡缺失率的情况
我们提出了一种名为 RedCore 的相对优势感知跨模态表示学习方法,用于处理存在缺失模态和具有不平衡缺失率的情况,通过 VIB 方法进行跨模态表示学习并通过双层优化问题自适应调节所有模态的监督,实验证明 RedCore 模型在对大量或不平 - 4M:大规模多模态蒙版建模
通过提出一种名为 4M 的多模态训练方案,将文本、图像、几何和语义模态,以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练,论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面 - 基于文本知识引导的电力需求预测的数值特征发现方法
提出了一种基于文本知识引导的数字特征发现(TKNFD)方法,通过互动两种模态数据对短期功率需求进行预测,实验结果表明 TKNFD 发现的特征在准确性上优于当前主流特征方案达 16.84% 至 36.36% 的 MAPE,并揭示了功率需求波动 - 跨用户嗅觉偏好识别的人机协同多模态学习方法
通过建立嗅觉脑电图和电子鼻的多模式学习方法,该论文成功地实现了对跨受试者嗅觉偏好的识别,且识别效果优于现有的方法,显示出其在实际嗅觉评估应用中的潜力。
- 视觉 - 语言模型的对抗提示调整
通过引入 Adversarial Prompt Tuning (AdvPT) 技术,本研究旨在提升视觉 - 语言模型中图像编码器的对抗性鲁棒性,改善对抗攻击的脆弱性,并且结合现有的基于图像处理的防御技术,进一步提高其防御能力。