DALL-E 2 无法可靠地捕捉常见的语法过程

Oct, 2022

DALL-E 2 无法可靠地捕捉常见的语法过程

DALL-E 2 Fails to Reliably Capture Common Syntactic Processes

Evelina Leivada, Elliot Murphy, Gary Marcus

TL;DR评估了 DALL-E 2 捕捉语言学家广泛讨论的 8 种语法现象的能力，结果表明 DALL-E 2 不能可靠地推断与语法一致的含义，这挑战了最近有关这类系统理解人类语言能力的论点。

Abstract

machine intelligence is increasingly being linked to claims about sentience, language processing, and an ability to comprehend and transform natural language into a range of stimuli. We systematically analyze the ability of →

machine intelligence dall-e 2 compositionality linguistics syntax

发现论文，激发创造

DALL-E 2 中组合句法和语义的比较研究

DALL-E 2 在语义准确性方面无法与年幼儿童相媲美，这表明它在组合句子表示方面存在明显缺陷。

Mar, 2024

DALL-E 2 的初步分析

DALL-E 2 生成与输入文本相对应的原创合成图像，并进行了 14 项测试，以评估其常识，推理和理解复杂文本的能力。

Apr, 2022

DALLE-2 遇到瓶颈：文本转图像模型中的单词到概念映射问题

本文探讨了 DALLE-2 将提示中的符号（单词）映射到生成图像中实体或实体属性的方式，强调了 DALLE-2 与人类语言处理方式之间的差异，揭示了实体间属性的语义泄漏现象，并为进一步研究文本到图像模型的归纳偏倚提供了新的切入点。

Oct, 2022

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

现实与语言数据的限制

这篇研究使用一个新颖的推理测试来探索语言数据对于计算机理解物理世界的可行性，并强调模型可能直接从纯语言数据中学习的内容。

Aug, 2022

不欺骗图灵测试：朝向人工智能的基于实证的语言学习

研究自然语言理解在人工智能领域的挑战，结合认知科学、心理学、思维哲学和认知语言学的见解，评估目前的方法和挑战。

Jun, 2022

人类少样本学习组合指令

人类的组合能力和语言学习技能具有高度的可塑性，能够从很少的示例中学习和使用新的功能概念，可以以超出提供的演示方式进行组合。研究了人们解决任务时的假设和归纳偏差，揭示了三个偏差：互斥性、一对一映射和图标级联。该研究显示了机器学习与人类语言学习的巨大差异，并探讨了制定更加类似于人类的机器学习算法的潜在手段。

Jan, 2019

关于 ChatGPT 和 DALL-E 2 在决策制定和空间推理方面的试点评估

本篇研究通过对两个生成式变压器模型 ChatGPT 和 DALL-E 2 进行认知能力的选择性评估，发现 DALL-E 2 在空间推理方面有较好表现，而 ChatGPT 在合理构建下呈现出一定的合理性但也存在不合理决策，在模型认知能力评估规模扩大及答案具备的挑战方面存在困难。

Feb, 2023

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

依赖项：为信息检索形式化语义链

本论文在语义处理方面做出重大贡献，提出了多种数学模型以及解决研究范式中存在问题的建议，从而大大提升了机器自动进行语义推理的复杂性和粒度。

Sep, 2017