- VigilEye:基于人工智能的实时驾驶员疲劳检测
本研究提出了一种新的司机瞌睡检测系统,结合了深度学习技术和 OpenCV 框架,利用从司机脸部提取的面部标志作为卷积神经网络的输入,训练模型识别瞌睡模式,并集成 OpenCV 实现实时视频处理,从而使该系统适用于实际应用。广泛的实验证明该系 - 真实情绪映射:实时新闻中面部表情基准测试
使用从逼真的新闻视频中提取的面部地标的情感识别的一种新方法,采用图神经网络分析面部地标的几何和空间关系,提高情感识别的理解和准确性。该方法通过构建基准数据集展示了其可行性和潜力,为情感识别技术的未来研究指明了新的方向。
- 基于面部特征点和时空图卷积网络的参与度测量
介绍一种通过人工智能和情感计算来测量虚拟学习中学生参与度的隐私保护方法,该方法利用从视频中提取的没有个人身份信息的面部标志点,通过 Spatial-Temporal Graph Convolutional Network (ST-GCN) - SeFFeC:面部特征精细编辑的语义控制
我们提出了一种新颖的方法 Semantic Facial Feature Control (SeFFeC) 用于细粒度人脸形状编辑,该方法能够操纵人类可理解的语义人脸特征,并且由不同组的面部标志定义,通过使用面部标志进行精确测量从而实现对 - 上下文感知的说话人脸视频生成
通过使用面部特征作为控制信号,我们提供了一个两阶段和跨模态可控的视频生成流程,以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明,该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。
- 基于 GAN 的面部视频修复中的现实地标导向
本研究中我们提出了一种用于表情驱动的视频修复的网络,利用生成对抗网络来处理静态和移动的遮挡物以生成完整的人脸图像,并借助面部标志和无遮挡参考图像来保持用户身份的一致性和情感的细节修复,为静态和动态帧中的面部视频消除遮挡提供了逼真和连贯的结果 - VectorTalker: 带有渐进式矢量化的 SVG 语音生成
通过提出一种名为 VectorTalker 的可扩展矢量图形重建和动画方法,本文研究了基于音频驱动的矢量图像的说话头生成,并通过广泛的定量和定性评估实验结果证明其在矢量图形重建和音频驱动动画方面的优越性。
- R2-Talker:利用哈希网格特征编码和逐层渐进调制的逼真实时说话人头部合成
R2-Talker 是一个高效和有效的框架,可以实现逼真的实时说话头部合成,通过使用多分辨率哈希网格来编码面部标志作为条件特征,并在 NeRF 渲染管道中引入渐进多层条件化方案,优化了条件特征融合、嘴巴合成和视觉质量。
- 多模态应力检测基于面部特征点和生物信息信号
本研究提出了一种多模式学习方法,用于压力检测,该方法结合了面部标记和生物特征信号。我们测试了这种多模式集成的各种早期融合和后期融合技术,以整合来自生物特征信号的一维卷积神经网络模型和使用面部标记的二维卷积神经网络。研究结果表明,后期融合的准 - 1DFormer:基于 Transformer 学习 1D 地标表示,用于面部地标追踪
通过在时间和空间维度上对标记进行令牌通讯以及采用混合机制、位置嵌入机制和多头注意机制,在定位面部标记方面,1DFormer 成功地模拟了长距离的序列模式和固有的面部结构,并通过一维卷积层在空间维度上进行令牌通讯,实现了对面部标记的学习和追踪 - 猫脸部关键点的自动检测
动物情感计算领域的重要挑战之一是缺乏高质量的数据集,本文提出了一个以猫脸图像为基础的新数据集,并通过使用面部标志检测卷积神经网络模型,在猫脸上取得了优异性能,同时该模型也具有推广到人脸标志检测的潜力。
- Blendshapes GHUM: 实时单目面部形状混合预测
Blendshapes GHUM 是一个面向设备的机器学习流程,在现代移动手机上从单个单眼 RGB 图像中以 30+FPS 预测 52 个面部混合形状系数,并支持虚拟化头像等面部动作捕捉应用。我们的主要贡献是:i)一种无需注释的离线方法,可 - 通过融合头部姿态信息和特征实现的 3D 面部对齐
本研究提出了一种新方法,通过将头部姿势信息与面部定位网络的特征图相融合,改进了面部定位的性能。此外,所提出的网络结构通过使用 2D 特征图和 3D 热图表示的多维特征,在双维度网络中实现了鲁棒的面部定位。为了有效地进行密集面部定位,我们还提 - HTNet 微表情识别
面部表情与肌肉收缩相关,微表情识别中,肌肉运动通常是微妙的,对当前面部情感识别算法性能产生负面影响。本文提出了一种层次 Transformer 网络 (HTNet) 来识别关键的面部肌肉运动区域,通过局部时间特征和全局面部特征提取层组成。实 - PP-GAN:使用带有 GAN 的地标提取器从韩国肖像到身份证照片的样式转移
该研究提出了一种基于深度学习网络和生成对抗网络的风格迁移方法,并采用面部标志遮罩保护面部特征以保留面部身份,同时使用格拉姆矩阵来考虑风格相关性,相比之前的研究表现出更好的迁移和保留性能。
- CVPR高保真自由可控的说话头部视频生成
本文提出了一种新模型,通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模,并引入了新的运动感知多尺度特征对齐模块来进行视频合成,从而实现了对头部姿态和表情的自由控制,并且得到了最优质的合成音频视频输出。
- 使用可学习图结构和自适应 AU 约束的几何图形表示方法用于微表情识别
本文通过构建几何二流图网络、自学习机制和自适应动作单元损失函数,研究了人脸标志物对微表情识别的贡献。实验证明,本文提出的方法具有更高的效率和更低的计算成本,且人脸标志物对微表情识别有重要贡献,值得进一步研究高效的微表情分析。
- MM视频中人声检测
本文提出了一种通过利用神经网络提取面部标志,并对这些标志进行时间统计分析以检测视频中的发言者的新方法。
- 基于 3DMM 和 3D Landmarks 的协同作用用于精准的 3D 人脸几何模型
本文研究了从 3D 可塑模型(3DMM)和 3D 面部标记的协同学习过程,以预测完整的 3D 面部几何,包括 3D 对齐,面部方向和 3D 面部建模。我们的协同过程利用了 3DMM 参数和 3D 标记的表示循环。3D 标记可以从 3DMM - MM知道何时放弃:基于 Patch Attention 的选择性级联回归用于实时人脸对齐
研究了面部关键点估计的准确性和速度问题,提出了一种基于软件的面部关键点姿态估计方法,利用逐步迭代预测回归误差的方法来区分样本,通过多尺度、基于补丁的轻量级特征提取器来进行面部关键点姿态估计,在移动设备 GPU 上实现了实时运行。