发现 DALLE-2 的隐藏词汇

Jun, 2022

Discovering the Hidden Vocabulary of DALLE-2

Giannis Daras, Alexandros G. Dimakis

TL;DR我们发现 DALLE-2 似乎有一个隐藏的词汇表，可以用于生成荒谬的提示图像，我们使用黑盒方法发现了这些随机单词与视觉概念之间的某种对应关系，这会带来重要的安全性和可解释性挑战。

Abstract

We discover that dalle-2 seems to have a hidden vocabulary that can be used to generate images with absurd prompts. For example, it seems that \texttt{Apoploe vesrreaitais} means birds and \texttt{Contarra ccetnx

dalle-2 hidden vocabulary image generation security challenges interpretability challenges

发现论文，激发创造

DALLE-2 遇到瓶颈：文本转图像模型中的单词到概念映射问题

本文探讨了 DALLE-2 将提示中的符号（单词）映射到生成图像中实体或实体属性的方式，强调了 DALLE-2 与人类语言处理方式之间的差异，揭示了实体间属性的语义泄漏现象，并为进一步研究文本到图像模型的归纳偏倚提供了新的切入点。

Oct, 2022

DALL-E 2 的初步分析

DALL-E 2 生成与输入文本相对应的原创合成图像，并进行了 14 项测试，以评估其常识，推理和理解复杂文本的能力。

Apr, 2022

利用虚构单词的图像生成对抗攻击

该研究提出了两种方法，通过使用 nonce words 来引导图像生成模型并对其进行调整，从而产生与特定视觉概念相关的图像，并讨论了这些技术对绕过现有内容审查方法的影响。

Aug, 2022

薛定谔的蝙蝠：扩散模型有时会在叠加态中生成多义词

本文使用类似稳定扩散模型 (Stable Diffusion model) 和 CLIP 编码器来解释文本到图像扩散模型在生成带有多重意义词汇的描述时所展现的奇特行为，两种方法均为通过对词汇向量的线性变化使生成的图像更加明确地反映所需的含义。

Nov, 2022

DALL-E 2 中组合句法和语义的比较研究

DALL-E 2 在语义准确性方面无法与年幼儿童相媲美，这表明它在组合句子表示方面存在明显缺陷。

Mar, 2024

一种用于文本概念多样性的新度量方法

这篇研究论文提供了一种标准化方法和一种通用度量工具，用于评估和比较不同文本和领域中的概念多样性，从而为人工智能自然语言处理领域做出了贡献，并为语义研究提供了参考。

Dec, 2023

DALL-E 2 无法可靠地捕捉常见的语法过程

评估了 DALL-E 2 捕捉语言学家广泛讨论的 8 种语法现象的能力，结果表明 DALL-E 2 不能可靠地推断与语法一致的含义，这挑战了最近有关这类系统理解人类语言能力的论点。

Oct, 2022

基于先验训练的开放集检测中视觉提示的探索

通过学习新类别知识并利用统计学构建模块，以及任务特定相似性字典的设计，我们提出了一种新的视觉提示方法，可以将预训练的检测模型推广到新类别，并在组合推理中表现出更好的性能。

Dec, 2023

DAP：面向领域感知的视觉与语言导航提示学习

通过引入低成本提示调整范式来学习特定领域视觉提示，我们提出了一种新颖且模型无关的领域感知提示学习（DAP）框架，以在 VLN 任务中为预训练模型提供特定对象级和场景级跨模态对齐，并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。在 R2R 和 REVERIE 上的实验结果显示，DAP 相比现有的最先进方法具有明显的优势。

Nov, 2023

LaViP: 语言驱动的视觉提示

通过语言引导的视觉提示方法，我们使视觉语言模型的视觉编码器适应下游任务，从而提高适应性和泛化性能。

Dec, 2023