AMII: 自适应多模态人际和自我模型用于行为合成

May, 2023

AMII: 自适应多模态人际和自我模型用于行为合成

AMII: Adaptive Multimodal Inter-personal and Intra-personal Model for Adapted Behavior Synthesis

Jieyeon Woo, Mireille Fares, Catherine Pelachaud, Catherine Achard

TL;DR提出 AMII 方法，利用注意力机制综合非言语行为以适应 Socially Interactive Agents 的不同角色。

Abstract

socially interactive agents (SIAs) are physical or virtual embodied agents that display similar behavior as human multimodal behavior. Modeling SIAs' non-verbal behavior, such as speech and →

socially interactive agents non-verbal behavior facial gestures amii user's behaviors

发现论文，激发创造

咖啡厅场景的多模态体验互动代理

通过多模态环境记忆模块，我们提出了多模态交互式智能体（MEIA），能够将自然语言表达的高级任务转化为可执行动作序列，从而实现了大型模型与具有体现性控制的集成，实验结果展示了 MEIA 在各种交互任务中的良好表现。

Feb, 2024

多模态自动可解释性代理

这篇论文介绍了 MAIA，一种多模态自动解释性代理。MAIA 是一个使用神经模型自动化神经模型理解任务的系统，如特征解释和故障模式发现。它通过提供一系列工具来对其他模型的子组件进行迭代实验，从而对其行为进行解释。这些工具包括人工解释性研究人员常用的工具：用于合成和编辑输入、计算最大激活样本、以及总结和描述实验结果。MAIA 提出的解释性实验将这些工具组合起来描述和解释系统行为。我们评估了 MAIA 在计算机视觉模型中的应用。首先，我们描述了 MAIA 在学习到的图像表示的特征（神经元级别）中的描述能力。在多个经过训练的模型和一个包含真实描述的人工生成视觉神经元数据集中，MAIA 生成了与由专家人工实验者生成的描述相当的结果。然后，我们展示了 MAIA 在两个附加的可解释性任务中的应用：降低对虚假特征的敏感性和自动识别可能被错误分类的输入。

Apr, 2024

AMuSE: 面向群体对话的自适应多模态情感分析

通过提出一种多模态注意力网络，将跨模态注意力注入每个层级的特定模态中，从而整合多模态数据特征，实现情感识别，并通过多模态可解释性可视化模块使模型的情感预测能够理解其推理过程。

Jan, 2024

基于互信息最大化与最小化和身份嵌入的多模态情感分析的多模态表示学习

本研究提出了一种基于互信息最大化和最小化以及身份嵌入（MMMIE）的多模态表示模型，以更好地应对不同模态之间的异质性差距和上下文动态。实验结果表明，该模型在两个公共数据集上的表现具有有效性。

Jan, 2022

多模态交互对话

本研究介绍了一种新的指向培训具有多模态输入上下文的代理，以及执行与其相关的多模态操作的模型 SIMMC，提供了两个 SIMMC 数据集，以及多个评估协议。

Jun, 2020

车内对话代理的乘客意图音视频理解

本文探讨在自动驾驶交互系统中，构建多模态对话理解能力在车内情境下以提高乘客舒适度的重要性；通过将语言输入与车内外的非语言 / 声音和视觉线索结合起来，实现对车内话语的多模态理解，从而为 AV 开发上下文和视觉基础的对话代理提供支持；实验结果表明，多模态方法在意图检测方面胜过文本基准方法。

Jul, 2020

Agent AI：多模态交互视野调查

多模态人工智能系统中，基于 Agent 的多模态智能研究，通过在真实和虚拟环境中嵌入具有感知能力的智能体，能够处理和解释视觉和语境数据，以提高智能系统的上下文感知和交互能力。

Jan, 2024

情感回应生成的迭代联想记忆模型

情感回应生成是理解对话表述中的认知和情感状态并生成适当回应。本文提出了一种迭代联想记忆模型 (IAMM)，通过使用新颖的二阶交互注意机制，迭代捕捉对话表述和情境、对话历史以及记忆模块 (用于存储关联词) 之间的重要关联词，从而准确而细致地理解表述。实验验证了该模型的有效性，并且语言模型的变化实验也表明关注关联词可以提高情感的理解和表达。

Feb, 2024

通过注意力音视一致性学习实现任意说话人脸生成

本文提出了一种新的任意说话脸生成框架，通过提出的 AMIE 发现音频和视频信息之间的视听一致性，以及通过训练阶段中选择性聚焦输入图像的嘴唇区域来进一步增强唇部同步。在 LRW 数据集和 GRID 数据集上进行的实验结果显示，该方法在性别和姿势变化方面具有鲁棒的高分辨率综合，改进了现有方法在普遍指标上的性能。

Dec, 2018

面向个性化情感交互的多模态社交机器人

本研究采用强化学习方法建立了一个多模态情感交互框架，利用人类用户的情感状态作为交互的奖励因素，优化了机器人的行为策略，并针对用户进行个性化情感交互来增强社交场景下机器人的自然性和吸引力。

Oct, 2021