用大型语言模型解决和生成 NPR Sunday Puzzles

Jun, 2023

用大型语言模型解决和生成 NPR Sunday Puzzles

Solving and Generating NPR Sunday Puzzles with Large Language Models

Jingmiao Zhao, Carolyn Jane Anderson

TL;DR使用大型语言模型和 PUZZLEQA 数据集探索解决和生成 NPR Sunday Puzzle 游戏节目谜题的能力，并发现大型语言模型可以解决 PUZZLEQA 谜题，但在生成谜题方面表现不佳，需要未来的研究。

Abstract

We explore the ability of large language models to solve and generate puzzles from the NPR Sunday Puzzle game show using PUZZLEQA, a dataset comprising 15 years of on-air puzzles. We evaluate four large language models<

large language models puzzle solving puzzleqa dataset prompt engineering gpt-3.5

发现论文，激发创造

语言模型是否是解谜天才？算法解谜揭示多模态推理中的严峻挑战

这篇论文介绍了一项新颖的任务，即多模式拼图解决，其框架是视觉问题回答。我们提出了一个名为 AlgoPuzzleVQA 的新数据集，旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图中的能力。我们的研究表明，GPT4V 和 Gemini 等大型语言模型在拼图解决任务中表现有限，对于大量拼图的多选题回答设置，它们的性能接近随机。这些发现突出了整合视觉、语言和算法知识以解决复杂推理问题的挑战。

Mar, 2024

利用大语言模型的推理解谜：一项调查研究

对大型语言模型（LLMs）在解谜方面的能力进行探索，揭示了它们在人工智能中的潜力和挑战，这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法，该调查通过各种方法论（包括提示技术、神经符号方法和微调）对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾，我们评估了 LLMs 在复杂谜题情景中的表现，发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度，并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。

Feb, 2024

大型语言模型的侧面思维谜题

我们设计了 BRAINTEASER 任务来测试模型展示横向思维和打破默认常识关联的能力，研究发现，现有的指导型与常识语言模型在横向思维方面与人类表现相比存在显著差距，特别是在对抗性格式的一致性上。

Oct, 2023

大型语言模型也是优秀的原型常识推理器

通过优化任务提示和生成多样化的链式推理和知识，该研究在 ProtoQA 数据集上实现了新的高分，并提供了对大型语言模型的解释，为自然语言处理社区提供了更好的提示开发和更复杂推理任务的潜能探索。

Sep, 2023

PuzzLing Machines: 从小数据学习的挑战

介绍了一个名为 PuzzLing Machines 的小数据学习挑战，该挑战包含来自语言奥林匹克的石碑难题，展示了目前包括最先进的深度神经网络模型在内的简单的统计算法无法完成这一挑战，这启发了新的 NLP 发展方向 -- 人类般思考的理解。

Apr, 2020

语言模型是纵横字谜的解答者

使用大型语言模型解决填字游戏的挑战，展示了当前最先进的语言模型在解谜填字提示方面的显著能力，性能达到先前结果的 2-3 倍，还开发了基于这一性能的搜索算法，首次使用语言模型解决完整的填字方格问题，在纽约时报的填字游戏上实现了 93% 的准确率，研究表明语言模型与人类专家的性能差距更小。

Jun, 2024

利用大型语言模型生成答案集程序

本文提出了一种神经符号方法，将大型语言模型和答案集编程的优势相结合，以将逻辑谜题的自然语言描述转化为答案集程序。

Jul, 2023

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

大型语言模型 (GPT) 困难回答关于代码的多选题

作者分析了三种不同的 GPT 模型（生成式预训练转换模型）在回答包括程序代码片段的多选题方面的有效性，发现包含代码片段的题目更加困难，这个发现可以帮助编程教育工作者适应他们的教学方法和评估，为学习者提供有意义的辅助。

Mar, 2023

MasonTigers 参加 SemEval-2024 任务 9: 用思维链集合解决谜题

我们的研究采用大型语言模型 (LLMs) 和几种提示技术解决自然语言理解测试中提供的谜题数据集。通过零瞄和少瞄提示，相较于开源模型，我们的专有模型表现出合理的结果。通过分步提示的迭代提示方法，我们进一步改进了结果。通过使用一系列分步提示，我们在字谜题子任务中获得第二名，在句子谜题子任务中获得第 13 名。提示型大型语言模型表现出较强的性能，证明了当提供思维过程分解时，它们具备处理复杂推理的能力。我们的工作揭示了分步解释性提示如何释放大型模型参数中更多的知识。

Mar, 2024