评估了 DALL-E 2 捕捉语言学家广泛讨论的 8 种语法现象的能力,结果表明 DALL-E 2 不能可靠地推断与语法一致的含义,这挑战了最近有关这类系统理解人类语言能力的论点。
Oct, 2022
DALL-E 2 生成与输入文本相对应的原创合成图像,并进行了 14 项测试,以评估其常识,推理和理解复杂文本的能力。
Apr, 2022
本文探讨了 DALLE-2 将提示中的符号(单词)映射到生成图像中实体或实体属性的方式,强调了 DALLE-2 与人类语言处理方式之间的差异,揭示了实体间属性的语义泄漏现象,并为进一步研究文本到图像模型的归纳偏倚提供了新的切入点。
本研究分析了 15,300 个 DALL-E 2 图像,发现其在男性主导领域中低估女性,而在女性主导领域中高估女性,同时揭示了这些图像中的性别偏见,需要采取女性主义干预手段以防止这些带有偏见的 AI 生成图片反馈到媒体生态环境中。
May, 2023
本文介绍了一种结合了 DALL-E 的构成性和 Slot Attention 模型的目标 - 中心表示模型的自动编码架构,名为 SLATE,可以在没有文本的情况下进行系统化的泛化,该模型基于 Image GPT 解码器,可以用于处理图像,实验结果表明,相较于混合解码器模型,该模型在内态和外态图像生成方面有着显著提高,并且具有与混合解码器模型相当或更好的感知机制结构。
Oct, 2021
本篇研究通过对两个生成式变压器模型 ChatGPT 和 DALL-E 2 进行认知能力的选择性评估,发现 DALL-E 2 在空间推理方面有较好表现,而 ChatGPT 在合理构建下呈现出一定的合理性但也存在不合理决策,在模型认知能力评估规模扩大及答案具备的挑战方面存在困难。
Feb, 2023
通过逐步提示的基于句法分析的分解,本研究发现了更多语义分析任务中的挑战。这一最优方法使我们在 CFQ 上取得了最新的技术成果,同时只需要传统方法所需训练数据的 1%。由于我们方法的普适性,我们期望类似的方法将在知识密集型应用中取得新的成果。
Sep, 2022
对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤色方面的偏见对其表现产生了影响。
Feb, 2022
使用 DALL-E-2 的绘画文本综合引擎制作合成图像极具逼真,并可能对照片取证提出新挑战,因此本文对 DALL-E-2 合成图像的透视一致性进行了初步探索,以确定基于几何的鉴定分析是否能检测这种新型合成媒体。
Jun, 2022
分析了两个自然语言推理数据集的语言特征,发现机器学习模型难以理解介词和动词语义重要性,不能理解反义词和同音词,不能理解不完整的句子和罕见单词短语,因此需要在训练过程中尽可能利用更多外部知识。