- 基于 PCA 的关键点跟踪方法在自动化面部表情编码中的应用
利用自动化技术生成基于主成分分析的面部动作单元,其能够解释超过 92.83% 的方差,并具有与面部动作编码系统等效的能力。这项研究表明自动化技术在心理学和相关领域中可以作为手动面部动作编码系统标记的替代选择,实现面部表情的高效实时分析。
- FacEnhance: 使用循环 DDPMs 改善面部表情
FacEnhance 是一种基于扩散理论的创新方法,用于改善现有低分辨率面部表情生成模型的局限性,并将低分辨率面部表情视频提升到更高的分辨率,并改善其质量,同时保留内容和身份一致性。
- SignMusketeers:大规模手语翻译的高效多流方法
基于影像及语言学特性,本研究提出了一种有效且高效的学习手语表示的方法,专注于手势视频中的脸部、手部和身体姿态,并通过自监督学习的方式学习手语中复杂的手形和丰富的面部表情,实现对手语翻译的新突破。
- 视频会议对表情的影响
我们的研究使用生成领域转换方法,自动生成学习到的面部表情字面变化的详细报告,同时发现了面对面和视频通话之间的行为差异。
- 心灵的表情:通过面部表情揭示在 11,427 名青少年中的心理健康状态
通过分析大规模的面部表情数据集,本研究揭示了情绪障碍与面部表情之间的关系,发现了面部表情中微小的瞳孔动态和视线方向变化可能是情绪障碍的潜在标记,为基于数据的精神健康研究奠定了基础。
- DogFLW: 野外犬脸部关键点数据集
动物情感计算是一个快速发展的研究领域,目前关注于动物内部状态的自动追踪,如疼痛和情绪,动物的面部表情可以用来传达这些状态信息,本文基于狗的面部解剖标志物的方案,开发了一个包含 3274 张狗的图像的数据集,名为 DogFLW 数据集。
- AniTalker:通过身份解耦人脸动作编码实现生动多样的口型动画
AniTalker 是一个创新的框架,从单张肖像中生成逼真的说话脸部,通过普遍运动表示,捕捉了广泛的脸部动态,包括微妙的表情和头部运动。两种自我监督学习策略有效地增强了动作表达,并借助于扩散模型和方差适配器的整合,实现了多样且可控的面部动画 - 通过三平面融合进行一致的三维肖像视频重建
通过使用融合个性化 3D 模型与帧间信息的新方法,我们能够实现从单个摄像头实时流式传输带有用户各帧外观真实重建的 3D 肖像视频,从而使远程存在变得普及化。
- 情绪增强的多模一次拍摄头像
我们对 MegaPortraits 模型进行了深入的检查和评估,重点关注其用于面部表情描述符的潜在空间,并发现了其表达强烈面部动作能力的几个局限。为解决这些限制,我们提出了针对训练流程和模型架构的重大改进,推出了我们的 EMOPortrai - 基于 3D 时空轨迹的深度伪造视频压缩检测
该研究提出了一种基于 3D 时空轨迹的深度伪造视频检测方法,该方法通过利用鲁棒的 3D 模型构建时空运动特征,整合来自 2D 和 3D 帧的特征细节,以减轻大头部旋转角度或不足的光照对帧内的影响。此外,该方法将面部表情与头部运动分离,并设计 - CVPRCAGE:环绕情感引导的表达推断
本研究通过深入比较 AffectNet 和 EMOTIC 两个数据集,提出了一种基于连续 valence 和 arousal 标签的面部表情预测模型,通过将离散类别标签与连续情绪标签结合,显著改善表情推断的性能,取得了在 AffectNet - CVPRFSRT:基于分解外貌、头部姿势和面部表情特征的人脸再现的面部场景表示变换器
人脸再现的任务是将视频中的头部运动和面部表情转移至源图像的外观,可以是不同的人(跨再现)。我们提出了一种基于 Transformer 编码器的方法来计算源图像的一组潜在表示。然后,我们使用基于 Transformer 的解码器预测查询像素的 - CVPR具有网格锚定哈希表融合形状的高效三维隐式头像
提出了一种新颖的快速 3D 神经隐式头像模型,实现实时渲染并保持细粒度的可控性和高渲染质量。本方法引入局部哈希表混合形状,通过线性合并和卷积神经网络预测的权重,将其附加到底层面部参数模型的顶点上,从而实现表情相关的嵌入。通过轻量级多层感知机 - 动画艺术化头像:由单张图像生成可动画的三维艺术化头像
通过一张单一的图像生成具有可控面部表情、头部姿态和肩膀运动的可动画 3D 感知艺术化人物形象,并进行实时动态演示。
- X-Portrait: 表情丰富的分层动作关注人像动画
我们提出了 X-Portrait,一种创新的条件扩散模型,专门用于生成富有表现力且时间连贯的肖像动画。
- 通过语音驱动动态电子人面部表情
通过使用皮肤中心化方法,本文提出了一种从语音驱动动画机器人面部表情的原则性方法,该方法能够实时生成高度逼真的面部表情,从而显著提高机器人复制细致人类表情以进行自然互动的能力。
- 通过多模型合奏进行复合表达式识别
我们提出了一种基于集成学习方法的复合表情识别的解决方案,通过训练基于卷积网络、Vision Transformers 和多尺度局部注意力网络的三个表情分类模型,通过模型集成使用后期融合的方法,我们能够在 RAF-DB 上实现高准确率,并能够 - 生成人工智能中的偏见
这项研究分析了由三种流行的生成人工智能工具生成的图像 - Midjourney、Stable Diffusion 和 DALLE 2 - 代表各种职业,以调查 AI 生成器中潜在的偏见。我们的分析揭示了这些 AI 生成器中两个主要关注领域, - 数据增强和迁移学习应用于面部表情识别
通过使用数据增强技术和生成对抗网络模型,将初步训练的卷积神经网络与不同架构的预训练模型的方法应用于面部表情识别任务,使得模型的泛化能力得到提高,从而实现对面部表情的自动识别,准确率达到 85%。
- Maia:一种用于人工智能交互的实时非口头聊天
使用面部表情和头部动作进行非面对面可视交流是计算机视觉领域的一个研究方向,旨在开发能够识别和分析非言语暗示和行为的算法。我们提出了一种仅基于非言语视觉沟通的人机交互方式,利用面部表情和头部动作模仿并超越人类用户,以低成本实时引起用户的注意。