BriefGPT.xyz
大模型
Ask
alpha
关键词
image-caption correspondence
搜索结果 - 2
增强图像 - 标题对:用于基于视觉和语言模型的语义保留的图像 - 标题对增强
通过数据增强和使用大规模图像和语言数据集(如 CLIP)进行预训练的图像编码器,提出了一种鲁棒的短语基础模型,用于低层次视觉任务中的关键字本体识别,并通过多种指标在常用数据集上展示了先进性能。
PDF
8 months ago
语音与图像的深度多模态语义嵌入
本文提出了一种模型,其将图像和相关的口头描述作为输入,并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号,并采用嵌入和对准模型将两个网络联系在一起,以学习跨两种模态的联合语义空间,最终在 Flickr8k 数
→
PDF
9 years ago
Prev
Next