图片描述和搜索的流水线

Feb, 2024

PICS: Pipeline for Image Captioning and Search

Grant Rosario, David Noever

TL;DR数字图像的组织与检索面临巨大挑战，本文介绍了基于大语言模型的图像字幕和搜索管道（PICS）方法，利用人工智能生成的图像字幕和情感分析来提高图像检索的可用性和搜索精确度，从而改变图像数据库系统，并满足现代数字资产管理的需求。

Abstract

The growing volume of digital images necessitates advanced systems for efficient categorization and retrieval, presenting a significant challenge in database management and →

digital images database management information retrieval image captioning large-scale image repositories

发现论文，激发创造

基于大型语言模型的自动卫星图像描述生成

自动遥感图像字幕生成技术与大规模数据集、大型语言模型、遥感技术和基准模型等相关，能够解决遥感图像字幕生成领域的瓶颈问题。

Oct, 2023

CIC: 一种文化感知的图像描述框架

本文介绍了一种新的框架，即具有文化意识的图像描述（CIC），通过图像中提取的文化视觉元素生成描述性标题，并在 45 位具有对应文化高度了解的不同文化群体参与的人类评估中，与基于 VLP 的图像描述基线相比，证明该框架生成了更具文化描述性的标题。

Feb, 2024

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

实用感问题敏感图像字幕

本文提出了一种基于 Rational Speech Acts 模型的 Issue-Sensitive Image Captioning（ISIC）方法，通过给定一个问题集合和目标图片，生成与问题相关的图像描述并在实验证实其有效性。

Apr, 2020

新闻报道场景下的图像描述

图像字幕生成的研究探索了针对名人照片的任务，旨在通过更直观的图像字幕框架丰富新闻报道的叙述，从而增强自动化新闻内容生成，促进信息的更具细致的传播。

Mar, 2024

将人类放入图像字幕循环中

通过人工反馈训练图像字幕模型，使其适应特定用户数据，并采用稀疏记忆重播组件避免灾难性遗忘，从而实现自定义图像字幕模型。

Jun, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了 10% 的召回率改善。

Apr, 2024