- InterCLIP-MEP: 多模态讽刺检测的交互式 CLIP 和增强记忆预测器
通过引入 InterCLIP-MEP 框架,结合 InterCLIP 和 MEP,并改进文本 - 图像交互编码,实现了对多模态讽刺的更强鲁棒性的识别。
- CM2-Net: 司机动作识别的持续跨模态映射网络
在司机行为识别方面,我们提出了 Continual Cross-Modal Mapping Network (CM2-Net) 来不断学习各种新的模态,并利用 Accumulative Cross-modal Mapping Prompti - 基于大型语言模型的多模态检索用于语音识别
提出 kNN-LM 和跨注意力技术两种方法的多模态检索,证明了其在语音识别任务上优于基于文本的检索方法,对多模态语言模型基准线具有最高水平的识别结果。
- 多模态和多主体系统遇上合理性:一项调查
本文旨在调查多模态和多代理系统是否在理性方面取得进展,通过概述最新的研究成果、鉴别单代理和单模态系统相对于理性的进步以及讨论开放性问题和未来方向。
- SleepFM: 跨脑活动、心电图和呼吸信号的多模态睡眠表征学习
该研究使用多模态多达 14,000 个参与者的超过 100,000 个小时的睡眠记录数据集,开发了 SleepFM 模型,通过对比学习在睡眠阶段分类和睡眠障碍呼吸检测方面的任务表现获得比标准对比学习的表征更好的结果。
- BrainMorph:用于稳健灵活的脑 MRI 登记的基础关键点模型
我们提出了一种基于关键点的通用脑 MRI 配准基础模型,称为 BrainMorph,它支持多模态、成对和可扩展的团体配准,该模型在大规模的数据集上进行训练并展示了出色的配准准确性和速度。
- MMFusion:食管癌淋巴结转移诊断的多模态扩散模型
介绍了一种基于 CT 图像以及临床测量和放射学数据的多模式异质图条件特征引导扩散模型,用于淋巴结转移诊断。通过构建异质图和应用条件特征引导扩散方法来消除信息冗余,并提出了一种掩蔽关系表示学习策略,旨在揭示原发肿瘤和淋巴结图像表示的潜在预后相 - MMTryon:多模式多参考高质量时尚生成控制
MMTryon 是一个多模态多参考虚拟试衣 (VITON) 框架,通过输入文本指令和多个服装图像,可以生成高质量的组合试穿结果。它通过引入新颖的多模态和多参考注意机制来解决现有研究中忽略的多个试穿物品和定制穿着风格的问题,并使用无解析的服装 - 逐步多模态条件提示调整
通过迭代利用图像和当前的编码信息,我们提出了一种新颖的方法 —— 渐进式多模态条件 Prompt 调整(ProMPT),通过多模态提示的方式使视觉 - 语言特征逐步对齐,从而实现从粗糙到准确的分类。在所有设置中,广泛的实验证明了 ProMP - 面向偏微分方程的基于多操作符学习和外推的基础模型
我们介绍了一种用于科学问题的多模态基础模型 PROSE-PDE,它是一种多运算符学习方法,可以预测时空系统的未来状态,并同时学习物理系统的底层控制方程。我们通过三个外推研究证明了 PROSE-PDE 可以通过训练多个运算符来泛化物理特征,且 - CVPR多任务多模态自监督学习的面部表情识别
通过多模态多任务自监督学习方法,利用无标签的野外视频数据,实现了面部表情识别的模型,并在多个基准测试中取得了优秀的性能表现。
- 从稀疏点到稠密点云:通过有限的 LiDAR 数据增强 3D 检测
提出了一种结合单目和基于点云的三维检测的平衡方法,使用低成本、低分辨率的传感器获取仅有 512 个点,然后将这有限的三维信息与单张图像结合重建完整的三维点云,通过与多模态现成的三维检测器结合使用,使得三维检测的准确率相比于最新的单目检测方法 - CVPR多智能体长期 3D 人体姿势预测的互动 - aware 轨迹条件化
提出了一个基于相互作用感知、轨迹条件化的长期多智能体人体姿势预测模型,通过粗粒度到细粒度的预测方法,首先预测出多模态全局轨迹,然后根据每种模态对应的局部姿势进行条件化预测,有效处理人体运动的多模态性以及长期多智能体之间的复杂相互作用,提高在 - COLING多模态表示学习的思维图软提示
我们提出了一种新颖的 Aggregation-Graph-of-Thought (AGoT) 机制,用于在多模态表示学习中进行软提示调整,该机制将人类思维过程建模为链式加以思维图,并且通过聚合和流动操作的提示将整个思考过程转化为优化问题,实 - COLINGM3TCM:面向动机访谈中话语分类的多模态多任务上下文模型
M3TCM 是一种多模态、多任务的上下文模型,通过多任务学习有效地建模治疗师和客户行为的共同和个体组成部分,并整合了文本、语音模态以及对话上下文的信息,相对于最新推出的 AnnoMI 数据集,我们的创新方法在客户和治疗师话语分类方面的性能提 - LVLM-Intrepret:大规模视觉语言模型的解释性工具
人们对于多模态大型语言模型及其内部机制的理解仍然是复杂的任务,因此该研究提出了一个新颖的交互应用来提高图像补丁的可解释性,并评估语言模型将输出与图像联系起来的效果,通过系统性地研究模型来发现系统的局限性,为提升系统功能铺平道路,案例研究证明 - KDD时尚电商中的多模态端到端产品匹配
在线市场与电子商务公司中,产品匹配是识别同一产品不同表示以提高可发现性、整理性和定价性的重要能力。我们在一个行业环境中提出了一个强大的多模态产品匹配系统,其中大规模的数据集、数据分布转移和未知领域带来了挑战。我们比较了不同的方法,并得出结论 - CVPR魔法令牌:多模物体重新识别中的选择多样性令牌
通过 EDITOR 框架中的多模态对象 ReID 方法实现对背景的抑制、特征重提取、空间频率令牌选择和特征细化,以产生更具辨别性的特征,从而提高在复杂视觉场景中的对象再识别效果。
- 游戏代理与大模型的调查:方法、应用和挑战
在复杂游戏场景中,本篇论文通过系统分析和总结现有基于大型模型(LMs)和基于 LM 的 Agent(LMAs)的体系结构、共性和挑战,提供了对 LM 在游戏中的应用现状的全面检视,并展望了其未来的研究方向。
- 3D 语义分割驱动的三维物体检测表征
在自动驾驶中,相较于 2D 检测,3D 检测能够提供更精确的信息用于路径规划和运动估计。然而,由于缺乏几何信息,单一和多视角图像以及来自相机的深度图在检测精度上相对较低。本文提出了 SeSame:一种基于点的语义特征的新表达方法,以确保基于