图像特异性
为填补目前研究中忽视多模态图像 + 文本系统的隐式性、不确定性和缺陷性的空白,本文提出了一个概念框架,着重考虑生成场景描述的图像的系统。我们概述了有关文本和图像传达意义的不同之处的核心挑战,以及可能由不明确和未规定的因素放大的风险。我们提出和讨论了解决这些挑战的策略,包括生成视觉上模棱两可的图像和生成多样化的图像集。
Oct, 2022
本文提出了两种关联度度量指标,并提出一种新的策略用于定义语义自适应边缘,并将其用于标准三元组损失函数的优化中,从而在有限的训练数据情况下得到了很大的改进。
Oct, 2021
通过产生更好的数据和寻找替代方法来改进图像描述系统的评估,因为当前的图像描述数据集质量不足。需要更详细的指导方针来考虑视觉障碍用户的需求和生成适当的描述。
Jun, 2020
图像相似度的量化是图像机器学习的一个关键版权问题。本文提出了一种基于概念相似性的图像相似度度量方法,通过生成逐渐复杂的图像描述来衡量相似度,该方法在图像对比和文本对比中表现优于现有基准,并通过指示差异描述粒度提供了解释性。
Feb, 2024
本文提出了概念 “上下文视觉相似度”,并探讨了在图像搜索应用领域的应用。使用三张图片,通过学习各个图像各个维度的特征权重以及重加权后的距离来确定查询图片与正向图片的相似度,以及他们与负向图片的相异度。
Dec, 2016
该论文通过观察文本到图像和图像到图像检索两者的关系,提出并验证了一种利用特殊关系而不需预训练大型架构等辅助信息,且表现最优秀的基于注意力机制协调图像和自由格式文本修饰符检索的方法。
Mar, 2022
本研究提出一种结合图像分析方法和神经语言模型的方法,结合密集字幕技术和一组筛选器生成网络研讨会图像上下文信息,以生成高度可解释且聚焦于相关信息的描述,以应对视觉障碍个体面临的信息获取问题。
Feb, 2022
我们提出了一种新的度量标准 —— 图像标题具体性,用于在多模态学习中评估无图像参考的标题文本的具体性和相关性,该方法利用强基模型衡量多模态表示中的视觉 - 语义信息损失,我们证明这与人类对单词和句子级文本具体性的评估强相关,同时我们展示出使用图像标题具体性进行筛选可以在资源受限环境中选择最高质量的样本,以进行高效训练。
Mar, 2024
研究了人类描述场景时自底向上显著性视觉关注和物体引用之间的一致性;提出了一种以显著性为增强因素的图像标题生成模型,结果发现该模型并不明显优于传统方法,但能更好地适用于未知数据。
Apr, 2017