MacGyver：大型语言模型是创造性问题解决者吗？

Nov, 2023

MacGyver：大型语言模型是创造性问题解决者吗？

MacGyver: Are Large Language Models Creative Problem Solvers?

Yufei Tian, Abhilasha Ravichander, Lianhui Qin, Ronan Le Bras, Raja Marjieh...

TL;DR我们研究了现代大型语言模型（LLMs）在一个受限制的环境中的创造性问题解决能力。为了达到这个目的，我们创建了一个名为 'MacGyver' 的自动生成数据集，包含 1,600 个故意触发功能固定性并需要 ' 跳出框架 ' 思考的现实世界问题。我们将问题集呈现给 LLMs 和人类，并比较两者的问题解决能力。我们展示了对于两组来说，MacGyver 都是具有挑战性的，但方式是独特且互补的。我们还提供了 LLMs 的详细错误分析，并展示了通过新颖的提示技术（如迭代的逐步反思和发散 - 收敛思维）来增强它们的问题解决能力的潜力。这项工作揭示了人类和人工智能的创造性问题解决能力，并说明了如何将心理学范式扩展到比较人类和机器的大规模任务中。

Abstract

We explore the creative problem-solving capabilities of modern large language models (LLMs) in a constrained setting. The setting requires circumventing a cognitive bias known in psychology as ''functional fixedness'' to use familiar objects in innovative or unconventional ways. To thi

large language models functional fixedness out-of-the-box thinking problem-solving abilities prompting techniques

发现论文，激发创造

人类和大型语言模型中的分歧创造力

最新研究表明，大型语言模型（LLMs）在创造性方面可以超越人类的能力，特别是在发散性思维和创造性写作等特定创造性任务方面，这项研究使用创造力科学的最新进展构建了一个评估 LLMs 创造力的深入分析框架与一个包含 10 万人的实验数据集进行对比，既为更具创造力的 LLMs 的发展开辟了新的路径，也促进了对由人类独特的创新思维过程构成的与那些可以人工生成的元素的更细致的研究。

May, 2024

潜在的数学和科学问题头脑风暴伙伴: LLMs

利用最新的大型语言模型（LLM），尤其是 GPT-4，我们综合案例研究共同探索当前最先进的 LLM 在人类集体头脑风暴中的能力和限制。

Oct, 2023

利用大语言模型的推理解谜：一项调查研究

对大型语言模型（LLMs）在解谜方面的能力进行探索，揭示了它们在人工智能中的潜力和挑战，这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法，该调查通过各种方法论（包括提示技术、神经符号方法和微调）对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾，我们评估了 LLMs 在复杂谜题情景中的表现，发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度，并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。

Feb, 2024

关于大型语言模型的创新力

本文分析了大型语言模型在创造性写作方面的应用，讨论了其中的挑战，探讨了机器创造性中的一些问题，以及这些技术在创意产业中的社会影响。

Mar, 2023

解码障碍：大型语言模型与人类问题解决者

大型语言模型在解决难题方面表现出色，但人类参与者在验证解决方案方面展现出更高的技能，该研究增进了我们对大型语言模型认知能力的理解，为提升其在各个领域中的问题解决潜力提供了启示。

Oct, 2023

利用大型语言模型生成答案集程序

本文提出了一种神经符号方法，将大型语言模型和答案集编程的优势相结合，以将逻辑谜题的自然语言描述转化为答案集程序。

Jul, 2023

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

语言模型在问题解决中表现出与人类学习者相同的认知偏差吗？

运用大型语言模型（LLMs）作为认知模型的兴趣日益增加，本研究通过研究 LLMs 在解决算术问题时与儿童的认知偏差，得出结论：LLMs 在文本理解和解决方案规划步骤中表现出类似人类的偏差，但在解决方案执行过程中没有类似的偏差。

Jan, 2024

LLMs 错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024

评估大型语言模型的推理能力

大型语言模型（LLMs）的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现，这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验，探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异，但总体性能并未提高。此外，我们还发现性能与展示格式和内容以出人意料的方式相互作用，与人类表现有所不同。总的来说，我们的结果表明 LLMs 具有独特的推理偏见，其只能部分预测人类的推理表现。

Sep, 2023