BriefGPT.xyz
Ask
alpha
关键词
lip motion
搜索结果 - 2
LipGER:依赖视觉条件的生成式误差纠正用于鲁棒自动语音识别
利用唇部动作的视觉线索,LipGER 是一种新颖的框架,用于提高噪音环境下自动语音识别(ASR)系统的性能,通过令一个 LLM 学习任务来进行视觉条件下的 ASR 错误校正,大大改善了传统 AVSR 学习中的关键挑战。
PDF
a month ago
AAAI
通过对抗性解缠音视频表示生成会说话的面部表情
该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成,并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。
PDF
6 years ago
Prev
Next