BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal encoder
搜索结果 - 2
对齐,自适应和注入:音频引导的统一图像生成
本文提出了一个统一框架 ——Align, Adapt, and Inject (AAI),用于基于声音进行图像生成、编辑和风格化。其方法将输入的声音转换成一个声音令牌,并利用现有强大的扩散式 T2I 模型,从而实现了方便而经济的声音引导的图
→
PDF
a year ago
CVPR
使用文本驱动的软掩膜进行多模态表征学习
提出了一个自我监督学习框架中的视觉语言表示学习方法,引入了一种新的操作、损失和数据增强策略,其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征,然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域
→
PDF
a year ago
Prev
Next