BriefGPT.xyz
Ask
alpha
关键词
caption retrieval
搜索结果 - 2
ACL
通过视觉知识转移在无平行数据的情况下,连接音频和文本之间的关联
提出了一种称为 VIP-ANT 的模型,实现了音频文本无对齐数据的自动对齐,应用在零 - shot 音频分类和字幕检索任务中取得了良好的性能,甚至超越了更传统的监督学习模型。同时也发现,虽然仅需一些监督数据就可以提高性能,但达到人类水平仍然
→
PDF
3 years ago
利用视觉问答进行图像字幕排名
本研究将视觉问题回答任务视为 “特征提取” 模块,提取图像和标题的表征,以此为基础对图像 - 标题进行排序并提出融合模型提高图像 - 标题匹配一致性的表现。实验发现,该模型在 MSCOCO 数据集上的字幕检索提高了 7.1%,图像提取提高了
→
PDF
8 years ago
Prev
Next