AMII: 自适应多模态人际和自我模型用于行为合成
通过多模态环境记忆模块,我们提出了多模态交互式智能体(MEIA),能够将自然语言表达的高级任务转化为可执行动作序列,从而实现了大型模型与具有体现性控制的集成,实验结果展示了 MEIA 在各种交互任务中的良好表现。
Feb, 2024
这篇论文介绍了 MAIA,一种多模态自动解释性代理。MAIA 是一个使用神经模型自动化神经模型理解任务的系统,如特征解释和故障模式发现。它通过提供一系列工具来对其他模型的子组件进行迭代实验,从而对其行为进行解释。这些工具包括人工解释性研究人员常用的工具:用于合成和编辑输入、计算最大激活样本、以及总结和描述实验结果。MAIA 提出的解释性实验将这些工具组合起来描述和解释系统行为。我们评估了 MAIA 在计算机视觉模型中的应用。首先,我们描述了 MAIA 在学习到的图像表示的特征(神经元级别)中的描述能力。在多个经过训练的模型和一个包含真实描述的人工生成视觉神经元数据集中,MAIA 生成了与由专家人工实验者生成的描述相当的结果。然后,我们展示了 MAIA 在两个附加的可解释性任务中的应用:降低对虚假特征的敏感性和自动识别可能被错误分类的输入。
Apr, 2024
通过提出一种多模态注意力网络,将跨模态注意力注入每个层级的特定模态中,从而整合多模态数据特征,实现情感识别,并通过多模态可解释性可视化模块使模型的情感预测能够理解其推理过程。
Jan, 2024
本研究提出了一种基于互信息最大化和最小化以及身份嵌入(MMMIE)的多模态表示模型,以更好地应对不同模态之间的异质性差距和上下文动态。实验结果表明,该模型在两个公共数据集上的表现具有有效性。
Jan, 2022
本文探讨在自动驾驶交互系统中,构建多模态对话理解能力在车内情境下以提高乘客舒适度的重要性;通过将语言输入与车内外的非语言 / 声音和视觉线索结合起来,实现对车内话语的多模态理解,从而为 AV 开发上下文和视觉基础的对话代理提供支持;实验结果表明,多模态方法在意图检测方面胜过文本基准方法。
Jul, 2020
多模态人工智能系统中,基于 Agent 的多模态智能研究,通过在真实和虚拟环境中嵌入具有感知能力的智能体,能够处理和解释视觉和语境数据,以提高智能系统的上下文感知和交互能力。
Jan, 2024
情感回应生成是理解对话表述中的认知和情感状态并生成适当回应。本文提出了一种迭代联想记忆模型 (IAMM),通过使用新颖的二阶交互注意机制,迭代捕捉对话表述和情境、对话历史以及记忆模块 (用于存储关联词) 之间的重要关联词,从而准确而细致地理解表述。实验验证了该模型的有效性,并且语言模型的变化实验也表明关注关联词可以提高情感的理解和表达。
Feb, 2024
本文提出了一种新的任意说话脸生成框架,通过提出的 AMIE 发现音频和视频信息之间的视听一致性,以及通过训练阶段中选择性聚焦输入图像的嘴唇区域来进一步增强唇部同步。在 LRW 数据集和 GRID 数据集上进行的实验结果显示,该方法在性别和姿势变化方面具有鲁棒的高分辨率综合,改进了现有方法在普遍指标上的性能。
Dec, 2018
本研究采用强化学习方法建立了一个多模态情感交互框架,利用人类用户的情感状态作为交互的奖励因素,优化了机器人的行为策略,并针对用户进行个性化情感交互来增强社交场景下机器人的自然性和吸引力。
Oct, 2021