BriefGPT.xyz
大模型
Ask
alpha
关键词
audio-visual modalities
搜索结果 - 3
基于回归的情感识别中的音视频融合中的递归联合注意力
本文提出了一种递归联合注意模型,结合长短期记忆模块,用于融合语音和面部表情进行基于回归的情感识别,结果表明该模型比现有技术表现更好。
PDF
a year ago
CVPR
隐式模块化音视表示的姿态可控说话面孔生成
本文提出了一种简洁而有效的框架来生成姿势可控的对话脸,通过使用隐式低维姿势代码对原始面部图像进行操作,实现语音和头部姿势信息的联合非身份嵌入空间,通过调制卷积重建框架,在极端视角稳健的情况下生成准确的唇形同步会话,并具有多种先进功能,例如对
→
PDF
3 years ago
MM
情感不欺人:利用情感线索的音视频 Deepfake 检测方法
本文提出了一种基于学习的方法来检测真实和虚假的 deepfake 多媒体内容,通过提取和分析同一视频中两种音频和视觉模态之间的相似性,以及提取和比较情感线索来推断输入视频是 “真实” 还是 “虚假”,并提出了一种深度学习网络,同时利用音频和
→
PDF
4 years ago
Prev
Next