BriefGPT.xyz
Ask
alpha
关键词
cross-modal dependencies
搜索结果 - 2
跨模态上下文学习实现多模态生成
本研究提出了一种利用大型语言模型和扩散模型的多模式生成方法(MGCC),通过在 LLM 嵌入空间中显式学习文本和图像之间的跨模式依赖关系以及生成特定于多物体场景的对象边界框,实现了从复杂的多模式提示序列中生成新图像的能力,并在两个基准数据集
→
PDF
a month ago
DualTalker: 语音驱动的三维面部动画的跨模态双重学习方法
通过交叉模态的双学习框架和辅助的模态一致性损失,提高数据使用效率、关联交叉模态的依赖关系,并增强微妙面部表情动力学的映射,从而在语音驱动三维面部动画中提高性能。
PDF
8 months ago
Prev
Next