EVOKE: 通过优化的知识蒸馏实现情感启用的虚拟化身映射
为了实现面部三维动画的情感表达和语音的同步,研究者开发了一种名为 EMOTE 的系统,它通过在空间局部和时间高频率上对语音内容进行口型识别来训练表情,同时维持与语音同步且具有完全的情感表达。
Jun, 2023
本文介绍了一种利用虚拟现实技术中红外监视器拍摄到的眼部图像,从而在遮挡部分面部的情况下,自动推断用户的表情,并生成动态的虚拟头像作为用户的表情代理。实验结果表明,该算法的准确度显示出性能优于人类评估者。
Jul, 2017
EMPATHIC 项目的研究旨在设计一款情感表达丰富的虚拟教练,能够吸引健康老年人提高幸福感并促进独立老龄化。本文概述了虚拟教练的情感表达识别模块的开发,包括数据收集、标注设计和针对项目需求的第一种方法论。结果表明,研究的多模态方法在对老年人进行情感分类时具有信息量,并且通常优于其他方法(音频标签准确率约为 68%,视频标签准确率为 72-74%)。这些发现有助于有限的关于情感识别在老年人与人工智能交互中的文献。
Nov, 2023
在这篇研究论文中,我们使用最近的大型视觉语言模型来探讨两种主要方法:图像字幕生成与仅使用语言的 LLM,以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context(EMOTIC)数据集上评估这些方法,并展示出即使在小型数据集上进行微调,视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。
May, 2024
提出了一种创新的数据驱动技术,通过将一组无表情的 3D 说话头与一组 3D 表情序列相结合,创建了一个合成数据集 EmoVOCA,再使用该数据集设计和训练了一个情感 3D 说话头生成器,通过接受 3D 面部、音频文件、情感标签和强度值作为输入,并学习将音频同步的唇部动作与面部的表情特征相结合,实验结果证明了该方法在合成逼真动画方面的优势。
Mar, 2024
本研究在 EmotiW Challenge 2023 中探索了符合隐私规范的野外群体情绪识别。提出的多模态模型通过视频和音频分支以及跨模态注意力实现,使用全局特征而避免使用个体特征,仅依靠分布在视频中的 5 个均匀帧即可达到相当高的准确率。
Dec, 2023
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
研究使用 3D 面部化身进行情感传达,提出了一种新的深度知觉情感一致性丢失训练方法 EMOCA,实现了高保真的面部表情重建和情感传达,可用于分析人类行为。
Apr, 2022
EmotiCon 是一个基于学习的算法,用于从视频和图片中识别上下文感知的人类情感。该算法利用多种模态,自注意力卷积神经网络以及深度图模型识别情感,提高了对 EMOTIC 和 GroupWalk 数据集中情感进行识别的准确率。
Mar, 2020
本文提出了一种名为 “Embodied Visual Recognition” 的任务,其中代理可以在三维环境中移动以对被遮挡的目标物体进行识别、定位和分割,研究结果表明,具有移动能力的代理比被动代理的视觉识别性能更好,代理可以学习不同于最短路径的策略移动路径来提高视觉识别能力。
Apr, 2019