图像文本化：一种自动创建准确详细图像描述的框架

Jun, 2024

图像文本化：一种自动创建准确详细图像描述的框架

Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

Renjie Pi, Jianshu Zhang, Jipeng Zhang, Rui Pan, Zhekai Chen...

TL;DR通过结合现有的多模态大语言模型（MLLMs）与多个视觉专家模型，我们提出了一种名为图像文本化（IT）的创新框架，以最大程度地将视觉信息转化为文本，自动生成高质量的图像描述。我们还提出了几个综合评估基准来验证我们框架所创建的图像描述的质量，显示经过 IT 精选描述训练的 LLaVA-7B 模型在生成更丰富的图像描述方面的能力得到了提高。

Abstract

image description datasets play a crucial role in the advancement of various applications such as image understanding, text-to-image generation

image description datasets image understanding text-to-image generation text-image retrieval detailed image descriptions

发现论文，激发创造

从图像中生成自动描述：模型、数据集和评估措施综述

本文综述了计算机视觉和自然语言处理社区最近对于从自然图像中自动生成描述的兴趣，系统分类了现有的方法并进行了详细回顾，讨论了它们的优缺点，总结了基准图像数据集和评估措施，并展望了未来的发展方向。

Jan, 2016

图像智能描述技术研究与应用

通过精细图像描述训练视觉语言模型的框架和数据集的介绍，验证了其在数据质量和与先前工作的比较中的优势，并展示了模型在生成最接近原始图像的描述以及在多个数据集上的表现优势。

May, 2024

图像字幕有时传达的信息超过其所能看到的图像

本研究探讨了图像字幕生成器将原始图像信息转化为文本时信息的损失程度，并通过对比使用标准图像分类器和仅使用文本分类器进行的灾难图像分类任务的结果来评估了几种图像字幕生成模型，表明在某些情况下文本分类器可以比标准图像分类器实现更高的准确度，同时还表明将图像分类器与文本分类器进行融合可以提高准确性。

May, 2023

使用人类参考数据评估自动图像描述

通过产生更好的数据和寻找替代方法来改进图像描述系统的评估，因为当前的图像描述数据集质量不足。需要更详细的指导方针来考虑视觉障碍用户的需求和生成适当的描述。

Jun, 2020

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

基于大型语言模型的图像背景和描述生成字幕

本论文提出了一种新方法，使用大型语言模型从文本描述和上下文中生成图像字幕，而无需直接处理图像，经调优后，该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型，解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。

Jun, 2023

基于短语的图像字幕

本文提出了一个简单的模型，可以根据给定的图片生成相关的句子，它主要侧重于句子的语法，并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系，并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果，同时相对于最先进的模型而言，该方法更加简单。

Feb, 2015

Concadia: 朝着有目的的基于图像的文本生成

该研究旨在通过引入 Concadia 数据集，研究图像描叙和标题的不同传达作用，并证明使用图片出现的文本背景来增强图像到文本模型的效果，从而提高实际应用过程中生成文本的有用性。

Apr, 2021

利用机器和用户生成的自然语言描述提升少样本图像分类

提出一种学习自图像和描述的模型（LIDE），通过与基准模型的对比实验证明了机器自动生成的描述可以作为模型预测的解释，高质量的用户生成描述可以进一步提高模型的性能，并通过比较特征空间中的图像表示和文本表示来研究语言描述为什么能提高 few-shot 图像分类的性能。

Jul, 2022

高效图像探索与用户引导图像标题生成的视觉分析

运用预训练的大规模语言 - 图像模型，本文尝试解决可视化分析中的两个问题：大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题，我们能深入了解视觉内容的语义基础，并发现数据偏差。同时，通过展示视觉内容与文本标题之间的关联，揭示了预训练的语言 - 图像模型在标题生成能力上的不足，并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。

Nov, 2023