BriefGPT.xyz
Ask
alpha
关键词
large-scale pre-trained image-text models
搜索结果 - 1
CLIP 能帮助声源定位吗?
利用大规模预训练的图像 - 文本模型对声源定位进行了扩展,通过音频信号与图像的对应关系,生成音频驱动的嵌入向量,以此对提供的音频生成驱动遮罩,并提取高亮区域的音频驱动图像特征,并与音频驱动的嵌入向量进行对齐,实现声音对象的更完整和更紧凑的定
→
PDF
8 months ago
Prev
Next