MAEA：多模态归因嵌入式人工智能

Jul, 2023

MAEA: Multimodal Attribution for Embodied AI

Vidhi Jain, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Yonatan Bisk

TL;DR理解多模态感知以支持具体人工智能是一个开放性问题，因为这些输入可能既包含高度互补的信息，也存在冗余的信息。我们提出了 MAEA 框架，以计算每个可微策略的模态全局归属，并展示了如何应用归属性分析 EAI 策略中的语言和视觉归属性进行低层行为分析。

Abstract

Understanding multimodal perception for embodied ai is an open question because such inputs may contain highly complementary as well as redundant information for the task. A relevant direction for multimodal poli

multimodal perception embodied ai global trends attribution analysis eai policies

发现论文，激发创造

多模态实体对齐中的不确定缺失和模糊视觉模态的重新思考

在多模态实体对齐研究中，我们发现当前模型普遍面临视觉模态不完整性、遗漏模态和模态歧义带来的挑战。为了解决这些问题，我们提出了 UMAEA 方法，通过有效减少参数和时间消耗，显著超越现有基准，并成功缓解了其他模型存在的限制。

Jul, 2023

咖啡厅场景的多模态体验互动代理

通过多模态环境记忆模块，我们提出了多模态交互式智能体（MEIA），能够将自然语言表达的高级任务转化为可执行动作序列，从而实现了大型模型与具有体现性控制的集成，实验结果展示了 MEIA 在各种交互任务中的良好表现。

Feb, 2024

利用内模态和跨模态交互进行多模态实体对齐

提出了一种用于多模态实体对齐的多粒度交互框架（MIMEA），其能够在同一模态或不同模态之间有效实现多粒度交互，并通过四个模块来完成：多模态知识嵌入模块、概率引导的模态融合模块、最优传输模态对齐模块和模态自适应对比学习模块。与其他方法相比，MIMEA 在两个真实世界数据集上进行的大量实验证明了其较强的性能。

Apr, 2024

多模态自动可解释性代理

这篇论文介绍了 MAIA，一种多模态自动解释性代理。MAIA 是一个使用神经模型自动化神经模型理解任务的系统，如特征解释和故障模式发现。它通过提供一系列工具来对其他模型的子组件进行迭代实验，从而对其行为进行解释。这些工具包括人工解释性研究人员常用的工具：用于合成和编辑输入、计算最大激活样本、以及总结和描述实验结果。MAIA 提出的解释性实验将这些工具组合起来描述和解释系统行为。我们评估了 MAIA 在计算机视觉模型中的应用。首先，我们描述了 MAIA 在学习到的图像表示的特征（神经元级别）中的描述能力。在多个经过训练的模型和一个包含真实描述的人工生成视觉神经元数据集中，MAIA 生成了与由专家人工实验者生成的描述相当的结果。然后，我们展示了 MAIA 在两个附加的可解释性任务中的应用：降低对虚假特征的敏感性和自动识别可能被错误分类的输入。

Apr, 2024

多模态知识图谱转换框架用于多模态实体对齐

多模态实体对齐 (MMEA) 是一个关键任务，旨在识别多模态知识图谱 (MMKGs) 中的等效实体对。我们提出了一种名为 MoAlign 的新颖 MMEA transformer，通过引入邻居特征、多模态属性和实体类型来增强对齐任务。利用 transformer 的能力更好地集成多重信息，我们设计了一个层次可修改的自注意力块在 transformer 编码器中，以保留不同信息的独特语义。此外，我们设计了两种实体类型前缀注入方法，使用类型前缀来整合实体类型信息，有助于限制 MMKGs 中不存在的实体的全局信息。我们在基准数据集上进行了广泛实验，证明我们的方法优于强竞争对手，且实现了出色的实体对齐性能。

Oct, 2023

多模态和交叉模态人工智能智能数据分析

本文介绍了多模态与跨模态人工智能技术在智能数据分析中的作用和应用，并提出了一个新的多模态与跨模态人工智能框架 (MMCRAI) 以平衡两种技术，在跨领域应用中取得良好的效果。

Sep, 2022

走向可信的多模式运动预测：评估和可解释性

该研究旨在提升基于实现值得信赖的人工智能设计需求的可靠性运动预测系统。其分析了当前评估基准的主要缺陷，提出了一个新的全面评估框架，并制定了用于模拟感知系统中的噪声的空间和时间鲁棒性评估方法。同时，提出了附加在多模态运动预测模型上的意图预测层，以提升输出的可解释性和生成更平衡的结果。最后，通过调查探讨了多模态轨迹和意图可视化中的不同元素来评估输出的可解释性。

Oct, 2022

多模态可解释人工智能：方法学进展及未来研究方向综述

本文系统分析了多模态可解释人工智能的最新进展，主要聚焦于相关的主要预测任务、公开可用的数据集、各类 MXAI 方法、评价指标以及未来研究方向和当前挑战。

Jun, 2023

多模态知识图谱对齐的实证研究：视觉、推理和对齐

本文提出了一种使用逻辑推理和多模态知识图谱嵌入的新型多模态实体对齐方法 LODEME，它能准确地利用多模态信息，实现对常见多模态知识图谱中图像特征的提取和利用。Lodeme 在包含图像的八个大规模知识图谱对比数据集上实现了最先进的表现。

Feb, 2023

多模态问题回答的统一信息提取

利用我们提出的多模态问答（MQA）框架，将多模态信息提取（MIE）任务统一为一个统一的片段提取和多项选择问答流水线，从而提高了各种类型的现成大型多模态模型在 MIE 任务上的性能，特别是在零样本和少样本情况下，我们的框架能够使 LMM 在与 ChatGPT 和 GPT-4 等更大的语言模型竞争或超越的 10B 参数尺度上获得更好的表现，从而将 MQA 框架作为利用 LMMs 解决 MIE 和其他下游多模态任务的一般原则。

Oct, 2023