T-Rex2:通过文本 - 视觉提示协同实现通用物体检测
T-Rex 是一个交互式的物体计数模型,通过视觉提示将物体计数形式化为开放集物体检测任务,可通过标记参考图像上的点或框来指定感兴趣的物体,然后检测具有相似模式的所有物体,并通过 T-Rex 的视觉反馈进行交互式地修正计数结果。该模型在全面的场景和挑战下展现出优异的零样例物体计数能力,且在视觉提示领域具有潜在的实际应用场景。
Nov, 2023
通过学习新类别知识并利用统计学构建模块,以及任务特定相似性字典的设计,我们提出了一种新的视觉提示方法,可以将预训练的检测模型推广到新类别,并在组合推理中表现出更好的性能。
Dec, 2023
通过利用大型语言模型,在文本到图像的生成模型中改善提示 - 图像的一致性,我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度,为构建可靠且强大的文本到图像模型铺平了道路。
Mar, 2024
本文提出了一种可扩展的对象检测流程,使用零手动标注扩展到新颖 / 不可见类别,该过程包含开放词汇表的对象检测器、区域提示学习、自我训练等四个部分,并通过对挑战性数据集的广泛实验表明了其优于现有方法。
Mar, 2022
此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架,该框架基于仅视觉输入,不需要文本提示就能生成新图像,其核心架构是语义上下文编码器 (SeeCoder),该框架在图像合成方面表现出色,不仅在基于示例的合成方法方面优于先前的方法,在遵循最佳实践的提示下,也能与最先进的 T2I 模型相媲美。
May, 2023
通过使用预先训练的语言模型生成与人类专家设计相似的提示语,NeuroPrompts 自适应框架可以改善文本到图像模型生成结果的质量,并提供用户对风格特征的控制。研究通过创建一个与 Stable Diffusion 相关的互动应用程序,展示了该框架的实用性。此外,通过利用大型数据集的人工设计提示,在文本到图像生成过程中,自动产生的改进提示可获得更高质量的图像。
Nov, 2023
该研究论文介绍了一种结合视觉和自然语言的简单而强大的数据的神经体系结构;该架构称之为 “Bounding Boxes in Text Transformer”(B2T2),并且在统一架构中利用指涉信息将单词绑定到图像部分。B2T2 在 Visual Commonsense Reasoning 基准测试上表现极佳,相对于已发表的基线减少了 25%的错误率,并在公共排行榜上取得了迄今为止的最佳表现(截至 2019 年 5 月 22 日)。详细的消融分析显示,将视觉特征早期整合到文本分析中对该算法的有效性至关重要。
Aug, 2019
本文提出一种名为 DetPro 的新方法,以学习基于预先训练的视觉 - 语言模型的连续提示表示,用于开放词汇物体检测。与以前的分类为导向的方法不同,DetPro 具有两个亮点:1)背景解释方案,包括图像背景中的提议进入提示训练;2)上下文分级方案,用于分离定制提示训练中的图像前景中的建议。通过将 DetPro 与状态 - of-the-art 的开放世界对象检测器 ViLD 组装在一起,并在 LVIS 以及 Pascal VOC,COCO,Objects365 数据集上进行实验,实验结果表明,我们的 DetPro 在所有设置中都优于基线 ViLD,例如在 LVIS 的新颖类上提高了 3.4 APbox 和 3.0 APmask。
Mar, 2022
该研究提出了一种文本生成图像的自适应提示适配框架,该框架使用预训练语言模型进行有监督的微调,再使用强化学习探索更好的提示,通过奖励函数鼓励策略生成更具美感的图像,实验结果表明,自适应提示适配方法优于手动人工优化提示工程,预训练检查点已经公开发布。
Dec, 2022
本文提出了一种基于文本或图像提示产生图像分割结果的模型,使用 CLIP 模型并引入 Transformer-based decoder 实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练,该模型可以生成二进制的分割结果。我们发现该模型不仅可适应于三种标准的分割任务,而且可以适应于任何文本或图像提示的二进制分割任务。
Dec, 2021