BriefGPT.xyz
Ask
alpha
关键词
audio-visual associative localizations
搜索结果 - 1
从原始感官输入中联合发现视觉对象和口语单词
本文针对语音与图像之间的语义关联关系,探讨了不需要传统监督方式的神经网络模型,并使用了 Places 205 和 ADE20k 数据集来验证模型,在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间
→
PDF
6 years ago
Prev
Next