OmniBind: 教授建立不等比例模态互动以实现全方位绑定
ImageBind 是一种学习跨六种不同类型数据(图像、文本、音频、深度、热成像和 IMU 数据)联合嵌入的方法,只需使用图像数据对它们进行绑定。它能够实现跨模态检索、跨模态检测和生成等新颖的应用,而且表现出强大的零样本和有限样本识别能力,能够评估视觉模型的性能。
May, 2023
UniBind 是一种灵活高效的方法,利用大型语言模型(LLMs)学习统一的表示空间,用于处理多模态数据,实现零样本识别并在多模态微调中取得新的最先进性能。
Mar, 2024
通过结合融合目标和单模态蒸馏的方法,提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题,为实现真实世界的机器人应用奠定了基础。
Jun, 2021
提出 LLMBind 框架,结合大型语言模型和预训练任务模型,实现多模态任务的综合集成,通过多领域专家的协作学习来处理各种多模态任务,展示了创建统一 AI 代理模型通用模态的潜力。
Feb, 2024
基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练,但并不总是能在开发场景中获得所有的模态,这给基于不完整模态的推断带来了挑战。为了解决这个问题,本文提出了一个一阶段模态蒸馏框架,通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比,这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络,以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后,我们介绍了模态融合任务的交叉翻译网络,以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明,提出的多模态继承框架可以克服各种场景中不完整模态输入的问题,并实现最先进的性能。
Sep, 2023
我们提出了建立全模态智能的方法,能够理解任何模态并学习通用表示。通过提出一种可扩展的预训练模式 —— 多模态上下文(MiCo),我们能够在预训练过程中扩大模态数量、数据量和模型参数。MiCo 预训练模型在多模态学习中展现出重要的新能力,并在 10 种不同模态的单一模态感知基准、25 种跨模态理解任务(包括检索、问答、字幕生成)和 18 种多模态大型语言模型基准上获得了 37 项最新成果记录。我们希望我们的研究能够为全模态智能的发展做出贡献。
Jun, 2024
生物学和化学领域的最新进展已经利用多模态学习,将分子及其自然语言描述整合到药物发现中。然而,当前的预训练框架局限于两种模态,并且设计一个能够处理不同模态(如自然语言、2D 分子图、3D 分子构象和 3D 蛋白质)的统一网络仍具有挑战性。在这项工作中,我们提出了 MolBind,这是一个通过对比学习训练多模态编码器的框架,将所有模态映射到共享特征空间以实现多模态语义对齐。为了促进 MolBind 在多模态上的有效预训练,我们还构建了一个包含图 - 语言、构象 - 语言、图 - 构象和构象 - 蛋白质配对数据的高质量数据集,即 MolBind-M4。MolBind 在广泛任务上展示了优越的零样本学习性能,表明它能够很好地捕捉多种模态的潜在语义。
Mar, 2024
我们提出了 ImageBind-LLM,一种通过 ImageBind 进行大型语言模型(LLM)的多模态指令调优方法。我们的方法可以响应多模态条件,包括音频、三维点云、视频以及它们的嵌入空间算术,仅通过图像文本对齐训练。我们的模型表现出卓越的多模态指令跟随能力,并具有显著的语言生成质量。
Sep, 2023
本文研究了在多模态分类系统中影响模型性能的模态偏差问题,通过构建两个基于 Out-of-Distribution 协议的数据集和提出一种自适应的 plug-and-play 损失函数方法,在彩色数字识别、视频动作识别和视觉问答三个任务上实现了明显的性能改进,证明了该方法在减少模态偏差问题方面的优越性。
Feb, 2022