为历史图像数据集创作使用基础模型的文本 - 图像提示研究

Sep, 2023

为历史图像数据集创作使用基础模型的文本 - 图像提示研究

Prompt me a Dataset: An investigation of text-image prompting for historical image dataset creation using foundation models

PDF

Hassan El-Hajj, Matteo Valleriani

TL;DR利用基础模型提取历史文献中的图像，并评估不同语言提示对人文学科不同级别的数据集上的效果。

Abstract

In this paper, we present a pipeline for image extraction from historical documents using foundation models, and evaluate text-image prompts and their effectiveness on →

image extraction historical documents foundation models humanities datasets linguistic prompts

发现论文，激发创造

面向任务驱动的基于模型的提示演进

利用下游分割任务优化人工提供的提示，提出了针对 Segment Anything Model（SAM）等基础模型的即插即用的 Prompt 优化技术（SAMPOT），在胸部 X 射线图像的肺分割中取得了显著的改进，并希望此工作能在自动视觉提示调整的新兴领域引起进一步研究。

Oct, 2023

通过图像提示构建训练无关的开放世界分割基础模型

通过使用图像概念传达的视觉概念，本研究首次探索了使用基础模型进行开放世界理解的方法，提出了一种名为图像提示分割（IPSeg）的新方法，该方法利用了图像提示技术，通过提取强大的特征，并通过新颖的特征交互模块将输入图像的表示与提示图像的表示进行匹配，以生成突出显示输入图像中目标对象的点提示，并进一步利用生成的点提示来指导 Segment Anything Model 对输入图像中的目标对象进行分割，从而消除了繁琐的训练过程，提供更高效和可扩展的解决方案。

Oct, 2023

使用文本和图像提示进行图像分割

本文提出了一种基于文本或图像提示产生图像分割结果的模型，使用 CLIP 模型并引入 Transformer-based decoder 实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练，该模型可以生成二进制的分割结果。我们发现该模型不仅可适应于三种标准的分割任务，而且可以适应于任何文本或图像提示的二进制分割任务。

Dec, 2021

文本到图像模型的最佳提示及其发现方法

本研究使用基因算法，结合人类反馈，学习组合最有用的提示关键字，以改善使用描述生成艺术图像的美感。

Sep, 2022

基于文本引导的视觉基础模型的遥感图像语义分割

本研究集中于遥感领域，通过利用多个基础模型来促进远程 sensing 图像语义分割任务。我们的实验结果表明，该方法在几个广泛使用的远程 sensing 数据集上具有很高的准确性。

Apr, 2023

文本到图像生成系统的提示日志分析

最近，大型语言模型和生成式人工智能的出现，释放了文本转图像生成系统惊人的能力，以合理的方式将高质量的图像综合到给定的参考文本中。我们进行了第一次大规模的记录，这些记录由多个文本到图像生成系统收集。我们的研究发现表示用户输入的文本与生成模型的训练数据之间存在很大的差距，并建议我们如何提高这些系统的性能。

Mar, 2023

图像标题是文本到图像模型的自然提示

论文理论分析了合成数据的训练效果和提示诱导的合成数据分布之间的关系，并相应地提出了一种简单而有效的方法，通过图像字幕和类名来提示生成模型，从而合成更具信息性和多样性的训练数据。实验证明，该方法显着提高了在合成训练数据上训练的模型的表现。

Jul, 2023

Prompt-Propose-Verify: 一个可靠的基于基础模型的手 - 物互动数据生成框架

通过以文本提示为条件的扩散模型，在人体特征如手部、牙齿等方面生成逼真的图像存在困难。我们假设通过用质量良好的标注数据克服扩散模型的这种缺陷。本文通过使用扩散模型改进手物互动图像生成，采集了一个经过精心注释的手物互动合成数据集，并在其上微调一个稳定的扩散模型。我们通过定性和定量指标（如 CLIPScore、ImageReward、Fedility 和对齐度）评估了图像 - 文本数据集，表现出明显优于当前最先进基准的性能。

Dec, 2023

自适应文本到图像生成的提示扩展

本论文介绍了一种 Prompt Expansion 框架，它帮助用户生成高质量多样化的图像，通过优化扩展了的文本提示，以便生成更吸引人的图像，并通过人类评估研究证明，使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。

Dec, 2023

文本提示引导的图像恢复

本研究提出了一种有效的基于文本提示的图像修复模型，通过任务特定的 BERT 进行精确理解用户指令并生成文本提示，设计了深度多头转置注意力和门控卷积模块来弥合文本提示和视觉特征之间的差距，创新地将语义提示引入到低层视觉域中，实验证明该模型在公共去噪、去雾和去雨数据集上获得了显著优越的性能，能够准确识别和去除图像的退化，无需增加模型的复杂性。

Dec, 2023