- 预测腋窝淋巴结转移中的缺失模态下的多模态学习
基于多模态学习的鉴别性淋巴结转移诊断模型,在临床医学实践中,通过双向蒸馏框架获得全面的多模态知识和稳健的 WSI 特征,有效地处理多模态数据和丢失模态,提高早期乳腺癌患者治疗决策的准确性。
- LIP-Loc: 跨模态定位的激光雷达图像预训练
利用对比映射预训练(CLIP)方法在图像与 LiDAR 点云的交叉模态本地化任务中,首次应用批处理损失方法并展示了零样本转移,并在 KITTI 数据集上取得了超过当前最先进方法 22.4% 的准确性提升,而且无需复杂的网络架构。
- AAAI语言辅助的 3D 场景理解
提出了一种通过语言辅助的方法来学习点云特征,使用 LMMs 文本丰富语义概念,通过基于统计的显著特征选择实现去冗余和降低特征维度,进一步分析了文本对点云的对比训练的影响,实验证实所提出的方法在三维语义分割、三维物体检测和三维场景分类任务中学 - 概念解释估计应该具备不确定性意识
用可理解的人类概念来解释模型的全局解释的不稳定性问题以及提出了一种基于不确定性的贝叶斯估计方法,可以提高概念解释的可靠性。
- CZL-CIAE: 基于 CLIP 的零样本学习用于修复逆龄估计
基于 CLIP 的零样本学习在年龄估计中提高了预测效果,通过融合图像和文本语义信息,实现了更好的年龄预测结果。
- 零样本检索:用搜索引擎增强预训练模型
使用 NLP 和多模式学习,该论文介绍了如何通过搜索引擎检索来增强预训练模型,从而在测试时从互联网中检索到有用的数据,并更新模型以解决模型的不确定性,取得了零样本性能的显著改进。
- 多模态应力检测基于面部特征点和生物信息信号
本研究提出了一种多模式学习方法,用于压力检测,该方法结合了面部标记和生物特征信号。我们测试了这种多模式集成的各种早期融合和后期融合技术,以整合来自生物特征信号的一维卷积神经网络模型和使用面部标记的二维卷积神经网络。研究结果表明,后期融合的准 - 面对缺失模态问题,如何打造强大的多模态模型?
多模态学习中处理缺失模态的信息论方法,通过引入 Uni-Modal Ensemble with Missing Modality Adaptation 技术,实现了对非缺失模态的特征提取和融合过程中的噪声鲁棒性增强,适用于广泛的模态并可无缝 - 使用大规模预训练模型提升辨别性多模态学习
通过冻结单模态微调模型的权重、添加额外的可训练分解矩阵以及进行多模态联合训练,我们的方法 MMLoRA 增强了模态之间的适应性并提升了整体性能。
- 理解 CLIP 中的可迁移表征学习和零射击迁移
通过对 CLIP 的理论研究,我们证明了多模态学习的可转移表示学习,并分析了其在零样本学习和下游任务中的性能。在此基础上,我们提出了一种新的 CLIP 类型方法,在基准数据集上实现了比 CLIP 和其他最先进方法更好的性能。
- 通过细粒度模态估值增强多模态合作
多模态学习模型的主题之一是将来自不同模态的异构信息进行联合整合,然而,大多数模型在多模态协同方面存在不足,不能很好地利用所有模态信息,因此,合理观察和改进模态之间的细粒度协同至关重要,特别是在面对现实场景时,模态差异可能在不同样本间有所变化 - FedDAT: 一种多模式异构联邦学习中基础模型微调的方法
最近,基础模型在多模态学习方面取得了显著进展。为了解决不同隐私法规导致的数据集中化困难,联邦学习(FL)成为一种有希望的解决方案,可以使多个客户端在不集中本地数据的情况下协同训练神经网络。为了减轻客户端的计算负担和通信开销,之前的工作采用了 - 不完整多模态 MRI 重建的联合伪模态生成
在联邦多模态 MRI 重建中,我们提出了一种名为 Fed-PMG 的新型通信高效的联邦学习框架,以解决缺失模态的挑战,并通过伪模态生成机制和聚类方案降低通信成本。
- 身体语言识别与生成的深度多模态学习调查
通过深度多模态学习,本文首次全面探讨了身体语言生成和识别,讨论了现有进展、挑战和未来方向,并为研究人员和从业者提供了有价值的资源。
- ICCV自适应梯度调制提升多模态模型性能
通过引入自适应梯度调制方法,本文提出了一种能够提升多模态模型性能的方法,并通过实验证明其优于现有的调制方法。此外,引入一种新的度量指标用于衡量模态竞争的强度,并系统研究了调制机制鼓励模型依赖更具信息量的模态。
- ViLP: 通过视觉、语言和姿势嵌入进行视频动作识别的知识探索
本研究提出了首个基于姿势增强的视觉语言模型(VLM)用于视频动作识别,该方案在 UCF-101 和 HMDB-51 两个常用数据集上分别达到 92.81% 和 73.02% 的准确率,在动态学习预训练后准确率分别达到 96.11% 和 75 - 基于眼底增强视网膜疾病感知蒸馏模型的 OCT 图像视网膜疾病分类
提出了一种利用非配对的眼底图像增强光学相干断层扫描模型的新方法,用于眼底疾病分类,实验结果证明该方法优于单模态、多模态和最先进的蒸馏方法。
- 基于多模态学习的疾病预测
这篇论文提出了一种 NAFLD 诊断系统(DeepFLDDiag),该系统结合了综合的临床数据集(FLDData)和基于多模态学习的 NAFLD 预测方法(DeepFLD)。该数据集包括超过 6000 名参与者的体格检查、实验室和成像研究、 - Macaw-LLM:多模态语言模型与图像、音频、视频和文本混合
本研究提出 Macaw-LLM,一种新型的多模式学习模型,可以无缝整合视觉、音频和文本信息,其中主要包括三个模块:一种用于编码多模式数据的模态模块,一种利用预训练 LLM 的认知模块,和一种用于协调多样化表示形式的对齐模块,并在此基础上构建 - OpenShape: 三维形状表达的扩展,向开放世界理解的规模化发展
本文介绍 OpenShape 方法,它是一种用于学习文本、图像和点云的多模式联合表示的方法。OpenShape 采用常用的多模式对比学习框架进行表示对齐,但专注于扩展 3D 表示,以实现开放世界 3D 形状理解,并通过配合 CLIP 嵌入实