BriefGPT.xyz
Ask
alpha
关键词
multimodal cross-attention mechanism
搜索结果 - 1
MM-Diff: 多模态条件融合的高保真图像个性化
为了提高主题准确性,我们提出了 MM-Diff 的统一且无需调参的个性化图像生成框架,能够在几秒钟内生成单个和多个主题的高保真图像。MM-Diff 利用视觉编码器将输入图像转换为 CLS 和 patch 嵌入,而通过设计精良的多模态交叉注意
→
PDF
4 months ago
Prev
Next