BriefGPT.xyz
Ask
alpha
关键词
audio cues
搜索结果 - 3
音视融合技术增强儿童视频多模态内容审核
针对面向儿童的视频内容创作数量的增加,需要强大的视频托管平台内容审核方案。我们提出了一种有效的 CLIP 适应方法,利用上下文音频提示来增强内容审核,通过冻结各个模态的背景模块,将音频模态和提示学习融合,对多模态版本的恶意或良性数据集进行了
→
PDF
2 months ago
EMO: 表情肖像的生命之躍 - 在弱條件下使用 Audio2Video 擴散模型生成有表情的肖像視頻
在这项工作中,我们通过关注音频线索和面部动作之间的动态和微妙关系,解决了提高说话视频生成中的真实感和表现力的挑战。我们确定了传统技术的局限性,常常无法捕捉到人类表情的全谱和个体面部风格的独特性。为了解决这些问题,我们提出了 EMO,这是一个
→
PDF
4 months ago
会话情景中的多模态注视跟踪
使用音频线索,本文在对话场景中提出了一种基于多模式的凝视追踪框架,利用音频与嘴唇之间的关联来增强场景图像并估计凝视候选者,采用多层感知机将主题与候选者进行匹配作为分类任务,通过引入图像和音频的对话数据集进行评估,表明我们的方法在凝视追踪任务
→
PDF
8 months ago
Prev
Next