- 通过隐式面部关键点编辑实现可控的说话人脸生成
基于音频驱动的控制型对话生成系统,可根据音频控制面部表情变形,包括单幅图像或顺序视频输入,能够实现准确而自然的口型同步,并能够定量控制嘴巴张开的形状。在广泛使用的基准测试中,我们的实验表明我们的方法在性能上优于最先进的技术,可实现表情变形的 - 属性的力量:情感分类中影响因素的揭示
人脸表情和人类情感识别是心理学和医学的关键研究领域之一,现有的末端到末端训练的神经网络是目前唯一能达到最先进分类性能的模型,然而这种黑盒模型缺乏透明度,因此需要对决策过程进行分析和确定规则,同时分析单独输入样本无法暴露出系统性的学习偏差,这 - PARK: 帕金森病远程运动分析
我们提出了一个基于网络的框架,通过允许用户在家进行神经学测试来筛查帕金森病(PD)。我们的网络框架指导用户完成涉及语音、面部表情和手指运动的三个任务。通过分析任务视频来分类用户是否显示出 PD 的迹象。我们以易于理解的方式呈现结果,并提供个 - 基于几何引导文本图像扩散模型的神经辐射场可控三维化身生成
提出了一种可控的文本到三维头像生成方法 Text2Control3D,利用 ControlNet 生成视角感知图像,并通过交叉注意力注入可控的面部表情和外貌,通过高斯潜变量的低通滤波解决了视角不可知纹理问题,以及通过学习图片形变表构建三维头 - HTNet 微表情识别
面部表情与肌肉收缩相关,微表情识别中,肌肉运动通常是微妙的,对当前面部情感识别算法性能产生负面影响。本文提出了一种层次 Transformer 网络 (HTNet) 来识别关键的面部肌肉运动区域,通过局部时间特征和全局面部特征提取层组成。实 - 视觉感知的文本转语音
本文提出了一种新的视觉感知文本转语音(VA-TTS)任务,它可以根据面对面交流中听者的语音和面部表情条件语音的生成,实验表明该方法可以在多种情景下生成更加自然有节奏感的音频。
- 基于深度学习的视频性骚扰早期识别
针对当前性骚扰、性虐待和性暴力普遍存在的问题,本文通过分析电影镜头中相关的图像特征,将这三个概念进行了分类。研究发现,被害人和施害人的面部表情以及不必要的接触是识别性骚扰、性虐待和性暴力场景的关键因素。此外,研究发现目前已有的显式内容检测器 - 一次性隐式可塑人脸建模与一致纹理参数化
本文提出了一种构建隐式 3D 变形人脸模型的新方法,使用了学习得出的 SDF 和明确的 UV 贴图参数化,从而实现了单张图片的重建、面部表情动画的修改和纹理的直接绘制,相较于现有技术在照片逼真度、几何和表情精度上有了提升。
- 利用语言先验从视频中重建签名化身
通过引入具有普遍适用性的新颖语言学先验,SGNify 可以从现场 SL 视频中全自动捕获手势、面部表情和身体动作,从而在学习 SL 时取代视频字典的 3D avatar 可以提高对技术和在线媒体的获取能力和 AR/VR 应用,并在 SL 视 - ECCVPERI: 野外场景中基于部位的情感识别
利用面部表情和身体姿势,提出了方法 PERI,在情感识别网络的中间特征上使用上下文注入块。与现有方法相比,PERI 在 EMOTIC 数据集上实现了显着改进。
- 面部表情识别的中层表示增强和图形嵌入的不确定性抑制
本文提出了利用 MRE 和 GUS 技术的人脸表情识别方法,以解决表情变化和数据不确定性带来的挑战。实验结果表明该方法具有更强的泛化能力和更稳健的表情捕捉表示能力。
- CVPR在 StyleGAN 潜空间中基于张量的情感编辑
该研究采用基于 HOSVD 的张量模型,利用 e4e 编码器将结构化面部表情数据库嵌入到潜在空间中,发现了对应于六种原型情绪和偏航旋转的潜在空间方向,用于改变真实人脸图像的表情或偏航旋转,与其他两种方法得到的类似方向进行了比较。结果表明,操 - CVPREMOCA: 基于情感驱动的单目人脸采集和动画
研究使用 3D 面部化身进行情感传达,提出了一种新的深度知觉情感一致性丢失训练方法 EMOCA,实现了高保真的面部表情重建和情感传达,可用于分析人类行为。
- SMA-STN: 分段运动关注的时空网络用于微表情识别
本篇论文提出动态分段稀疏成像模块(DSSI)和分段运动关注空间时间网络(SMA-STN)来处理微表情识别(MER)问题,通过计算局部 - 全局的时空描述符来捕捉微小运动变化,利用空 - 时运动关注模块(STMA)来捕捉面部表情的远程空间关系 - MM使用三维混合形状和动态纹理建模卡通表情
本文提出了一种解决艺术家手绘漫画变形的问题的方法,强调了增强创建所需表情的能力,同时保留漫画的身份夸张风格。这种方法的关键在于模拟漫画表达,通过传统 3DMM 表示法扩展到漫画域来实现,方法包括形状建模和纹理生成,用于重建准确和稳定的几何形 - CVPRFaR-GAN 用于一次性人脸再现
本文提出了一种只需要输入一个源标识符和目标表情,便可生成一定质量的表情图片的一次性脸部再现模型,FaR-GAN,适用于图片处理和电影制作。将此方法应用于 VoxCeleb1 数据集并与其他方法进行比较取得更好的效果。
- DurIAN: 基于时长信息的注意力多模态合成网络
本文提出了一种通用、强大的多模态合成系统,可以同时生成自然语音和面部表情,并能改善现有的端到端语音合成系统中的词跳过 / 重复错误,同时可以对语音和面部表情的表现力进行细粒度控制。
- CVPR通过单张图片捕捉 3D 手、面部和身体表达
本研究提出了通过单目图像计算实现人体姿态、手部姿态和面部表情三维模型的方法,主要使用了一个新的、一致的、包含完全表达手和面部表情的人体模型 SMPL-X,可以对受控图像和自然环境图片进行三维模型匹配。
- AAAI具有鲁棒性的变分 LSTM 对未知变化模式的识别:应用于面部表情识别
本文提出了针对序列中存在的模式变化、可以提高其稳健性和鲁棒性的可变模式 LSTM 网络,并在包含姿态和光照变化等各种类别的新动态面部表情数据集上进行了试验验证。
- 野外情感语音识别中的跨模态转移
本篇研究提出一种基于面部表情的情感识别的无监督学习方法,通过跨模态蒸馏将面部表情标注传递到语音领域,用于语音情感识别,实现了在未标注音频数据下学习语音情感表示的目标。