关键词image-caption retrieval
搜索结果 - 4
- 保留字幕信息:在对比图像 - 字幕检索中预防快捷学习
采用潜在目标解码 (LTD) 方法作为优化约束来降低图像 - 标题检索 (ICR) 方法的学习捷径,以提高其一般化能力和召回率。
- 度量学习的经验适用于图像字幕检索吗?
在基于图像标题检索的任务中,三元组损失与半硬负例已成为从头开始优化的方法的事实选择。最近度量学习的进展已经产生了比三元组损失在图像检索和特征表示等任务上效果更好的损失函数。本文通过比较两种基于图像标题检索方法上的三种损失函数来回答这个问题, - 使用语音到图像检索的语言学习
本研究提出了一种改进的神经网络方法,借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构,实现了从口语训练中创建基于视觉的句子嵌入,相比较前人工作取得了显著提升的图像字幕检索性能,并且揭示了模型的哪些层更适合识别输入中的单词。
- ICLR图像和语言的序列嵌入
本文倡导明确模拟视觉 - 语义层次中的偏序结构,介绍一个学习有序表示的通用方法,并展示了如何将其应用于涉及图像和语言的各种任务中,特别是超义预测和图像字幕检索,结果表明得到的表示优于当前方法。