Oct, 2022
DALL-E 2 无法可靠地捕捉常见的语法过程
DALL-E 2 Fails to Reliably Capture Common Syntactic Processes
Evelina Leivada, Elliot Murphy, Gary Marcus
TL;DR评估了 DALL-E 2 捕捉语言学家广泛讨论的 8 种语法现象的能力,结果表明 DALL-E 2 不能可靠地推断与语法一致的含义,这挑战了最近有关这类系统理解人类语言能力的论点。
Abstract
machine intelligence is increasingly being linked to claims about sentience,
language processing, and an ability to comprehend and transform natural
language into a range of stimuli. We systematically analyze the ability of
→
发现论文,激发创造
DALLE-2 遇到瓶颈:文本转图像模型中的单词到概念映射问题
本文探讨了 DALLE-2 将提示中的符号(单词)映射到生成图像中实体或实体属性的方式,强调了 DALLE-2 与人类语言处理方式之间的差异,揭示了实体间属性的语义泄漏现象,并为进一步研究文本到图像模型的归纳偏倚提供了新的切入点。
Oct, 2022
机器学习对矛盾检测模型的语言学研究:实证分析和未来展望
分析了两个自然语言推理数据集的语言特征,发现机器学习模型难以理解介词和动词语义重要性,不能理解反义词和同音词,不能理解不完整的句子和罕见单词短语,因此需要在训练过程中尽可能利用更多外部知识。
Oct, 2022
人类少样本学习组合指令
人类的组合能力和语言学习技能具有高度的可塑性,能够从很少的示例中学习和使用新的功能概念,可以以超出提供的演示方式进行组合。研究了人们解决任务时的假设和归纳偏差,揭示了三个偏差:互斥性、一对一映射和图标级联。该研究显示了机器学习与人类语言学习的巨大差异,并探讨了制定更加类似于人类的机器学习算法的潜在手段。
Jan, 2019
关于 ChatGPT 和 DALL-E 2 在决策制定和空间推理方面的试点评估
本篇研究通过对两个生成式变压器模型 ChatGPT 和 DALL-E 2 进行认知能力的选择性评估,发现 DALL-E 2 在空间推理方面有较好表现,而 ChatGPT 在合理构建下呈现出一定的合理性但也存在不合理决策,在模型认知能力评估规模扩大及答案具备的挑战方面存在困难。
Feb, 2023
在测试语言不常见方面的人工智能性能时,暴露对底层意义的不敏感性
本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现,着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力,暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。
Feb, 2023