BriefGPT.xyz
大模型
Ask
alpha
关键词
flickr8k dataset
搜索结果 - 1
语音与图像的深度多模态语义嵌入
本文提出了一种模型,其将图像和相关的口头描述作为输入,并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号,并采用嵌入和对准模型将两个网络联系在一起,以学习跨两种模态的联合语义空间,最终在 Flickr8k 数
→
PDF
9 years ago
Prev
Next