图片描述和搜索的流水线
本文介绍了一种新的框架,即具有文化意识的图像描述(CIC),通过图像中提取的文化视觉元素生成描述性标题,并在 45 位具有对应文化高度了解的不同文化群体参与的人类评估中,与基于 VLP 的图像描述基线相比,证明该框架生成了更具文化描述性的标题。
Feb, 2024
图像字幕生成是一项计算机视觉任务,涉及为图像生成自然语言描述,本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。
Aug, 2023
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本文提出了一种基于 Rational Speech Acts 模型的 Issue-Sensitive Image Captioning(ISIC)方法,通过给定一个问题集合和目标图片,生成与问题相关的图像描述并在实验证实其有效性。
Apr, 2020
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023
我们提出了一种互动式图像检索系统,结合了视觉语言模型和大型语言模型,通过用户反馈迭代改进查询,并利用无噪声的查询扩展提高检索准确性,在评估中获得了 10% 的召回率改善。
Apr, 2024