- 缺失鲁棒性的视觉增强多模态语篇错流检测
现有的语音故障检测技术只依赖于声学数据,本研究提出了一种实用的多模态故障检测方法,利用可用的视频数据与音频结合。我们策划了一个音频 - 视觉数据集,并提出了一种新颖的融合技术,使用权值共享的模态不可知编码器来学习时态和语义上下文。我们的可靠 - 图像文本分类的稳健潜在表示调整
通过引入模态潜在转换模块和新设计的融合模块,提出了一种强大的大型模型的潜在表示调优方法,以最大化模态之间的相关性,并提供在某一模态缺失情况下的稳健表示,同时保留图像和文本基础模型的冻结状态以保留其大规模预训练所获得的能力。实验证明了该方法的 - AMOSL:多视图图神经网络中的自适应模态结构学习,用于增强统一表示
通过适应性模态结构学习(AMoSL),我们采用优化传输来捕捉模态之间的节点对应关系,并与图嵌入进行联合学习,从而可以训练更准确的图分类器。
- GOMAA-Geo:目标模态不可知主动地理定位
我们提出了 GOMAA-Geo,一个目标模态不可知的主动地理定位代理,通过跨模态对比学习和监督基础模型预训练以及强化学习相结合的方式,实现高效的导航和定位策略,在广泛评估中表现出超越可学习方法并在不同数据集和目标模态上进行泛化的能力。
- 多模态物体跟踪的卓越性能
多模态目标跟踪是一个新兴领域,它利用来自各种模态的数据(比如视觉、深度、红外热像、事件、语言和音频)来估计视频序列中任意物体的状态。本研究综述了现有多模态目标跟踪任务,并分析总结了各个任务的常用数据集和主流的跟踪算法,重点关注了它们基于自监 - 泛模态信息交互
生成式人工智能正在改变信息交互,对搜索引擎进行全面的改进以支持多种搜索和聊天交互方式是一个重要研究领域。
- CVPR野外多模式再识别的全能框架
引入了一个新颖的多模态学习范式(称为 All-in-One),利用一个预训练的大模型作为编码器,实现了高效的多模态检索,克服了不同模态数据的挑战,同时在零样本和领域泛化情境中展示出卓越的性能。
- 多感官人工智能的基础
通过综合一系列理论框架和应用领域,该论文旨在推进多传感器人工智能的机器学习基础。它首先提出了一个理论框架,形式化描述不同感知模态之间的相互作用,以获取任务的新信息。其次,研究了可广泛泛化于多个模态和任务的实用多模态基础模型的设计。最后,讨论 - 视觉与语言解码器是否平等使用图像和文本?它们的解释是否自洽?
本研究探讨了视觉和语言模型在生成解释时与提供答案时对模态的依赖程度,并评估了视觉和语言模型解码器在后 - hoc 和 CoT 解释设置中的自我一致性,发现视觉和语言模型的自我一致性不如纯语言模型,对图像的贡献要远小于文本的贡献,尤其是在解释 - MiPa:混合补丁红外 - 可见光模态无关目标检测
该研究提出了一种使用两种模态的不同方式,使得单一模型能够处理任何模态,研究了如何有效地利用可见光和红外 / 热模态来创建基于 Transformer 的物体检测模型,并引入了新颖的 MiPa 训练技术,通过达到可竞争的结果平衡模态,最终能够 - 端到端语音翻译的模态空间软对齐
使用软对齐方法进行端到端语音翻译,通过对抗训练对齐语音和文本之间的表示空间,提高翻译性能。
- 多模学习的晶体材料
材料科学中的人工智能通过提高性能预测和加速新材料的发现,革命了这一领域。通过多模态对齐在共享潜在空间中连接高维材料性质,我们介绍了多模态学习结晶材料(MLCM)的基础模型训练新方法,展示了 MLCM 在多个方面的实用性,并在材料科学领域中引 - 语言引导下统一的医学图像预训练在共同语义空间中
借助统一的语义空间,UniMedI 提出了一种统一医学图像预训练框架,能够有效地为不同模态的医学图像创建统一的表示,并通过改进对 2D 和 3D 图像的分析和解释来提高一致性和性能。
- GPT-4V(视觉)的早期评估
GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态(如深度、热力、视频和音频)方面被评估,发现其在英语视觉基准上表现出色,但无法识别图像中的简单中文文本;在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些 - 重构 TMSC:面向目标的多模态情感分类的实证研究
研究了目标导向的多模态情感分类中当前的性能瓶颈问题,通过实证评估和深入分析数据集,揭示了当前多模态情感分类系统主要依赖文本模态,提出了关于模型设计和数据集构建的几个方向。
- 一种通过偏离关系学习在模态和场景之间统一的遥感异常检测器
通过利用异常对象与其局部背景的偏差特征,我们将异常检测任务重新定义为基于偏差关系的无向双层图,其中异常得分建模为给定背景模式和正常对象的条件概率,进而将学习目标表达为条件概率排序问题。我们在数据、架构和优化方面设计了一种实例化表达方法,并通 - 多模式识别阿尔茨海默病综述
老年痴呆症是一种以认知障碍和记忆损失为特征的进行性神经障碍。本文旨在探索多种模态及其融合方法,提高早期诊断和干预老年痴呆症的效果。
- 衡量视觉语言模型的语言先验在组合推理中的作用
我们识别了视觉 - 语言组合性的两个源头:语言先验和图像与文本之间的相互作用。我们展示了当前改进组合泛化的尝试依赖于语言先验而非图像信息,并提出了一个不依赖语言先验的组合性新度量标准。
- 神经启发的多模态层次学习
通过信息融合和处理各种来源或方式的信息对于获取综合准确的现实世界感知至关重要。我们从神经科学中获得灵感,开发了基于信息瓶颈概念的信息论层次感知(ITHP)模型。与大多数旨在将所有模态作为输入的传统融合模型不同,我们的模型将主模态定为输入,而 - 多模式学习理论
研究多模态学习算法的泛化性质,发现与单一模态学习相比,多模态学习可以达到更好的泛化界限,最多可以提高到 O (√n) 倍,其中 n 代表样本大小。