知谁的认识逻辑
现有的语音故障检测技术只依赖于声学数据,本研究提出了一种实用的多模态故障检测方法,利用可用的视频数据与音频结合。我们策划了一个音频 - 视觉数据集,并提出了一种新颖的融合技术,使用权值共享的模态不可知编码器来学习时态和语义上下文。我们的可靠设计适应了视频模态在推断过程中有时可能丢失的现实场景。当两种模态始终可用时,我们还提供了备选融合策略。在五个故障检测任务的实验中,我们的统一多模态方法明显优于仅音频的单模态方法,当视频和音频模态始终可用时,平均绝对改进率为 10%(即百分点增加 10%),即使在一半的样本中视频模态丢失,仍然有 7% 的改进。
Jun, 2024
通过引入模态潜在转换模块和新设计的融合模块,提出了一种强大的大型模型的潜在表示调优方法,以最大化模态之间的相关性,并提供在某一模态缺失情况下的稳健表示,同时保留图像和文本基础模型的冻结状态以保留其大规模预训练所获得的能力。实验证明了该方法的有效性。
Jun, 2024
通过适应性模态结构学习(AMoSL),我们采用优化传输来捕捉模态之间的节点对应关系,并与图嵌入进行联合学习,从而可以训练更准确的图分类器。
Jun, 2024
我们提出了 GOMAA-Geo,一个目标模态不可知的主动地理定位代理,通过跨模态对比学习和监督基础模型预训练以及强化学习相结合的方式,实现高效的导航和定位策略,在广泛评估中表现出超越可学习方法并在不同数据集和目标模态上进行泛化的能力。
Jun, 2024
多模态目标跟踪是一个新兴领域,它利用来自各种模态的数据(比如视觉、深度、红外热像、事件、语言和音频)来估计视频序列中任意物体的状态。本研究综述了现有多模态目标跟踪任务,并分析总结了各个任务的常用数据集和主流的跟踪算法,重点关注了它们基于自监督学习、提示学习、知识蒸馏、生成模型和状态空间模型等技术范式。同时,在此网址上维护了一个持续更新的多模态目标跟踪论文清单。
May, 2024
引入了一个新颖的多模态学习范式(称为 All-in-One),利用一个预训练的大模型作为编码器,实现了高效的多模态检索,克服了不同模态数据的挑战,同时在零样本和领域泛化情境中展示出卓越的性能。
May, 2024
通过综合一系列理论框架和应用领域,该论文旨在推进多传感器人工智能的机器学习基础。它首先提出了一个理论框架,形式化描述不同感知模态之间的相互作用,以获取任务的新信息。其次,研究了可广泛泛化于多个模态和任务的实用多模态基础模型的设计。最后,讨论了如何利用这些思想开展未来工作,以实现更普遍、互动和安全的多传感器人工智能。
Apr, 2024
本研究探讨了视觉和语言模型在生成解释时与提供答案时对模态的依赖程度,并评估了视觉和语言模型解码器在后 - hoc 和 CoT 解释设置中的自我一致性,发现视觉和语言模型的自我一致性不如纯语言模型,对图像的贡献要远小于文本的贡献,尤其是在解释生成方面,这种差异在 CoT 解释设置中尤为明显。此外,对最新的视觉和语言模型解码器进行了基准测试,发现视觉和语言模型解码器仍然在 VALSE 测试中面临许多困难现象。
Apr, 2024
该研究提出了一种使用两种模态的不同方式,使得单一模型能够处理任何模态,研究了如何有效地利用可见光和红外 / 热模态来创建基于 Transformer 的物体检测模型,并引入了新颖的 MiPa 训练技术,通过达到可竞争的结果平衡模态,最终能够在单一模态推理下击败多模态融合方法。
Apr, 2024