本文探讨了 DALLE-2 将提示中的符号(单词)映射到生成图像中实体或实体属性的方式,强调了 DALLE-2 与人类语言处理方式之间的差异,揭示了实体间属性的语义泄漏现象,并为进一步研究文本到图像模型的归纳偏倚提供了新的切入点。
Oct, 2022
DALL-E 2 生成与输入文本相对应的原创合成图像,并进行了 14 项测试,以评估其常识,推理和理解复杂文本的能力。
Apr, 2022
该研究提出了两种方法,通过使用 nonce words 来引导图像生成模型并对其进行调整,从而产生与特定视觉概念相关的图像,并讨论了这些技术对绕过现有内容审查方法的影响。
Aug, 2022
本文使用类似稳定扩散模型 (Stable Diffusion model) 和 CLIP 编码器来解释文本到图像扩散模型在生成带有多重意义词汇的描述时所展现的奇特行为,两种方法均为通过对词汇向量的线性变化使生成的图像更加明确地反映所需的含义。
Nov, 2022
DALL-E 2 在语义准确性方面无法与年幼儿童相媲美,这表明它在组合句子表示方面存在明显缺陷。
Mar, 2024
这篇研究论文提供了一种标准化方法和一种通用度量工具,用于评估和比较不同文本和领域中的概念多样性,从而为人工智能自然语言处理领域做出了贡献,并为语义研究提供了参考。
Dec, 2023
评估了 DALL-E 2 捕捉语言学家广泛讨论的 8 种语法现象的能力,结果表明 DALL-E 2 不能可靠地推断与语法一致的含义,这挑战了最近有关这类系统理解人类语言能力的论点。
通过学习新类别知识并利用统计学构建模块,以及任务特定相似性字典的设计,我们提出了一种新的视觉提示方法,可以将预训练的检测模型推广到新类别,并在组合推理中表现出更好的性能。
通过引入低成本提示调整范式来学习特定领域视觉提示,我们提出了一种新颖且模型无关的领域感知提示学习(DAP)框架,以在 VLN 任务中为预训练模型提供特定对象级和场景级跨模态对齐,并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。在 R2R 和 REVERIE 上的实验结果显示,DAP 相比现有的最先进方法具有明显的优势。
Nov, 2023
通过语言引导的视觉提示方法,我们使视觉语言模型的视觉编码器适应下游任务,从而提高适应性和泛化性能。