关键词visual-semantic embedding
搜索结果 - 11
- ICML零样本图像检索的视觉 - 语义嵌入方法综述
本文关注零样本图像检索,使用句子作为查询条件,概述了该领域的技术趋势,包括图像与文本匹配的历史、常用的数据集和方法的评估结果, 并介绍了 Github 上的实现,旨在鼓励研究者进一步发掘语言与图像之间的联系。
- CVPR面向目标的注视估计用于零样本学习
在零样本学习中,结合由类级属性指导的目标定向注视估计模块(GEM),本文通过预测人眼凝视位置来改善较强的属性定位,同时通过学习任务相关注意力和回归局部属性特征来优化全局图像特征;在实验中验证了该方法的竞争优势以及在属性定位方面的准确性,并表 - AAAI一致的视觉语义嵌入的阶梯损失
本文介绍一种用于视觉 - 语义嵌入的新方法,其中引入了连续变量来建模查询与多个候选项之间的相关度,并提出了可学习的一致的嵌入空间,其中具有更高相关度的候选项比那些相关度较低的映射到更靠近查询的位置。此外,提出了梯度损失和相应的一致分数度量的 - CVPR跨模式检索的多义词视觉语义嵌入
本文介绍了多义实例嵌入网络(PIE-Nets),通过多头自注意力和残差学习,结合全局上下文和局部特征计算实例的多个不同表示形式,以解决当前方法无法有效处理多义实例的问题,并且将其应用于图像文本检索和更具挑战性的视频文本检索,同时发布了一个用 - 从文本查询中弱监督的视频片段检索
本文提出了一种学习弱标签的方法来解决文本 - 视频片段检索问题,并使用基于文本引导的注意力机制学习视频中的相关片段,该方法在两个基准数据集上获得了与监督式学习方法相当的性能。
- CVPR文本到图像生成的语义分离
该文提出了一种新的文本图像生成模型,使用基于语义的标准化处理和图像嵌入策略来实现高水平的语义一致性和低水平的语义多样性,并在 CUB 和 MS-COCO 数据集上展示了其优异性能。
- 语义引导的多注意力区域定位用于零样本学习
本文关注于零样本学习中如何挖掘物体的区分特征,提出了基于语义导向的多注意力定位模型,该模型通过发现物体最区分性的部分实现了零样本学习且不需要任何人工标注。在三个广泛使用的零样本学习基准测试上的综合实验表明,该模型及其提出的方法在很大程度上提 - ICCV自动空间感知时尚概念发现
本文提出了一种利用来自购物网站的弱标签化的图像文本数据进行自动空间感知概念发现的方法,通过将服装图像及其对应描述联合建模,并通过将词汇语义向量表示与卷积地图得出的空间表示相结合生成空间感知表示。我们进一步将空间感知表示用于属性聚类,以形成空 - MM双向 LSTMs 学习时尚搭配
本文提出了一种基于双向 LSTM 的视觉 - 语义嵌入方法,可以为线上时尚购物提供更有效的推荐服务,实验结果表明该方法在 Polyvore 数据集上具有优秀的性能。
- CVPR多实例视觉语义嵌入
通过 Multi-Instance visual-semantic Embedding model (MIE) 模型,我们可以发现和映射成对应标签的语义意义的图像子区域,有效提升了多标签图像注释和零样本学习任务的性能。
- 联合建模嵌入和翻译以桥接视频和语言
本文提出了一种名为 LSTM-E 的新型统一框架,它可以同时探索 LSTM 和视觉 - 语义嵌入的学习,以有效生成自然语言描述的视频内容,实验表明 LSTM-E 在生成自然语言句子方面的表现优于目前为止的最佳表现,对于预测 SVO 三元组也