语言模型能否学会倾听?
该论文提出了一个交互式对话的建模框架,通过结合说话人的动作、对话音频和可能的相应听众动作输出来捕捉非口头双人互动的多模态和非确定性特征,还使用了运动 - 音频交叉注意力变换将说话人的运动和语音音频结合起来,并通过运动编码 VQ-VAE 学习了对真实听众运动的离散潜在表示。
Apr, 2022
该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”,通过原始语音音频产生个体化和风格化的全身共说手势,消除了复杂的多模态处理和手动注释的需求,实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。
Aug, 2023
人际交流模型可通过 Dyadic Interaction Modeling 生成 3D 面部动作,该模型考虑听者的非语言行为,利用编码离散潜在表示生成多样且逼真的运动。
Mar, 2024
我们提出了一个框架,用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频,我们输出一个人的多个姿势动作可能性,包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合,以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作,能够表达姿势中的重要细微之处(如冷笑和假笑)。为了促进这项研究,我们介绍了一种首次出现的多视角对话数据集,可以进行逼真的重建。实验证明,我们的模型生成了适当且多样化的姿势动作,优于仅使用扩散或仅使用向量量化的方法。此外,我们的感知评估突出了逼真(与网格)对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。
Jan, 2024
提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架,通过学习语音和三维手势之间的映射,使用概率分布生成多样化的手势,并通过预训练方案解决数据稀缺性问题,结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。
Sep, 2023
通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分,结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器,从而更加真实和多样的生成语音到动作的映射。
Aug, 2021
我们提出了一个新的神经会话模型,其不仅读取和生成文本信息,还能够识别和生成面部表情,以及基于对话中的情绪适应其响应。该模型采用 RNN 编码器 - 解码器架构,通过观察电影进行训练,并通过自动度量和人类研究展示了其生成更自然对话的能力。
Dec, 2018
本文提出了一种新框架,可以根据语音文本和语音音频表达生成关节角度序列,经过客观和主观评估,证明了该手势生成框架对机器人和具身代理的有效性。
Sep, 2023
本文介绍了一个创新任务,重点关注人类沟通,旨在生成说话者和听众的三维整体人体动作。我们的方法的核心是将因子分解与文本语义信息相结合,从而更真实和协调地生成动作。我们分别训练 VQ-VAEs 来处理说话者和听众的整体动作,并考虑了说话者和听众之间的实时相互影响,提出了一种新颖的基于链式变换器的自回归模型,专门设计用于有效描述现实世界的沟通场景,可以同时生成说话者和听众的动作。这些设计确保了我们生成的结果既协调又多样化。我们的方法在两个基准数据集上展示出最先进的性能。此外,我们还介绍了 HoCo 整体沟通数据集,这是未来研究的宝贵资源。我们的 HoCo 数据集和代码将在被接受后用于研究目的发布。
Mar, 2024