社会行为生成的二人互动建模

Mar, 2024

Dyadic Interaction Modeling for Social Behavior Generation

Minh Tran, Di Chang, Maksim Siniukov, Mohammad Soleymani

TL;DR人际交流模型可通过 Dyadic Interaction Modeling 生成 3D 面部动作，该模型考虑听者的非语言行为，利用编码离散潜在表示生成多样且逼真的运动。

Abstract

human-human communication is like a delicate dance where listeners and speakers concurrently interact to maintain conversational dynamics. Hence, an effective model for generating listener nonverbal behaviors req

human-human communication listener nonverbal behaviors dyadic interactions dyadic interaction modeling motion generation

发现论文，激发创造

学习聆听：建模非确定性二元面部动作

该论文提出了一个交互式对话的建模框架，通过结合说话人的动作、对话音频和可能的相应听众动作输出来捕捉非口头双人互动的多模态和非确定性特征，还使用了运动 - 音频交叉注意力变换将说话人的运动和语音音频结合起来，并通过运动编码 VQ-VAE 学习了对真实听众运动的离散潜在表示。

Apr, 2022

超越言语 -- 为沟通生成整体性的三维人类二人运动

本文介绍了一个创新任务，重点关注人类沟通，旨在生成说话者和听众的三维整体人体动作。我们的方法的核心是将因子分解与文本语义信息相结合，从而更真实和协调地生成动作。我们分别训练 VQ-VAEs 来处理说话者和听众的整体动作，并考虑了说话者和听众之间的实时相互影响，提出了一种新颖的基于链式变换器的自回归模型，专门设计用于有效描述现实世界的沟通场景，可以同时生成说话者和听众的动作。这些设计确保了我们生成的结果既协调又多样化。我们的方法在两个基准数据集上展示出最先进的性能。此外，我们还介绍了 HoCo 整体沟通数据集，这是未来研究的宝贵资源。我们的 HoCo 数据集和代码将在被接受后用于研究目的发布。

Mar, 2024

是否使用 React：面向双人对话的个性化化身姿态预测

本文提出了一种名为 Dyadic Residual-Attention Model（DRAM）的神经网络结构，通过选择性注意力整合单向和双向动态，以生成人物姿势序列，从而改善虚拟代表（avatar）的远程存在感，进而在双向交流中展现出更自然的人物姿势，并进行实验验证和用户研究，证实该模型在预测 avatar 姿势方面比非自适应的单向 / 双向模型更有效，更逼真。

Oct, 2019

面向目标驱动的二元交流的情感面孔

本研究介绍了一种视频框架，用于建模双人对话中口头和非口头交流之间的关联，提出了一种通过大型语言模型和视觉 - 语言模型构成的对话建模方法，并提出了一种新的无剧本对话视频数据集，实验和可视化结果表明，该方法能够生成显著更具社交适切性的监听者。

Jan, 2023

InterDreamer: 零激活文本向三维动态人物 - 物体交互

通过使用预训练的大型模型和文本到动作模型，本文介绍了一种名为 InterDreamer 的框架，能够以零样本的方式生成与文本指令无缝对齐的逼真和连贯的 3D 人物 - 物体交互序列。

Mar, 2024

语言模型能否学会倾听？

基於語言模型和量化的原子運動元素，我們提出了一種生成聽眾適當面部反應的框架，以回應演講者的言談，並展示了模型在定量指標和定性用戶研究中生成流暢且反映語義的聽眾動作的能力。

Aug, 2023

多模态社交互动建模：新挑战与稠密对齐基线

通过引入三个新的挑战性任务，研究论文在社交推理游戏环境中提供了大量数据注释，进一步提出了一种新颖的基于语言 - 视觉表示的多模态基准线方法，实验表明其在建模社交互动方面的有效性。

Mar, 2024

音频至照片级虚拟人物：对话中的人物合成

我们提出了一个框架，用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频，我们输出一个人的多个姿势动作可能性，包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合，以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作，能够表达姿势中的重要细微之处（如冷笑和假笑）。为了促进这项研究，我们介绍了一种首次出现的多视角对话数据集，可以进行逼真的重建。实验证明，我们的模型生成了适当且多样化的姿势动作，优于仅使用扩散或仅使用向量量化的方法。此外，我们的感知评估突出了逼真（与网格）对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。

Jan, 2024

音频全能化：使用 WavLM 预训练模型的语音驱动手势合成

该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”，通过原始语音音频产生个体化和风格化的全身共说手势，消除了复杂的多模态处理和手动注释的需求，实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。

Aug, 2023

从视频学习非语言交流中的三元信念动力学

本文通过结合不同的非语言交流提示，设计了一种能够描绘、学习和推断代理人心理状态的方法，并以此为基础开发了一种新型的能够跟踪和预测所有心理状态的能级能量模型，从而提供了一种基于非语言交流和信念动态的社交事件描述和视频总结方法。

Apr, 2021