LLM 是否是出色的密码填字游戏解答者？

Mar, 2024

LLM 是否是出色的密码填字游戏解答者？

Are LLMs Good Cryptic Crossword Solvers?

Abdelrahman "Boda" Sadallah, Daria Kotova, Ekaterina Kochmar

TL;DR利用三种大型语言模型对神秘填字游戏进行基准测试，结果显示它们在这个任务上的表现远远低于人类。

Abstract

cryptic crosswords are puzzles that rely not only on general knowledge but also on the solver's ability to manipulate language on different levels and deal with various types of wordplay. Previous research sugges

cryptic crosswords language manipulation wordplay nlp models benchmark results

发现论文，激发创造

语言模型是纵横字谜的解答者

使用大型语言模型解决填字游戏的挑战，展示了当前最先进的语言模型在解谜填字提示方面的显著能力，性能达到先前结果的 2-3 倍，还开发了基于这一性能的搜索算法，首次使用语言模型解决完整的填字方格问题，在纽约时报的填字游戏上实现了 93% 的准确率，研究表明语言模型与人类专家的性能差距更小。

Jun, 2024

利用大语言模型的推理解谜：一项调查研究

对大型语言模型（LLMs）在解谜方面的能力进行探索，揭示了它们在人工智能中的潜力和挑战，这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法，该调查通过各种方法论（包括提示技术、神经符号方法和微调）对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾，我们评估了 LLMs 在复杂谜题情景中的表现，发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度，并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。

Feb, 2024

导航迷宫：评估和提高 LLMs 处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为 SearchBench 的新基准测试，其中包含 11 种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的 LLM 也无法完全以文本方式解决这些问题，例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如 GPT4 的表现提升到了 11.7%。在这项工作中，我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将 GPT-4 的表现提升到了 57% 以上。

Jun, 2024

大型语言模型中的逻辑谜题解决评估：基于扫雷案例研究的洞察

我们的研究引入了一种新的任务 -- 扫雷，旨在测试 LLMs 在陌生格式的任务中的推理和规划能力；我们的实验证明，尽管 LLMs 具备完成该任务所需的基本能力，但它们在将这些能力整合成解决扫雷问题所需的连贯的多步骤逻辑推理过程方面存在困难。这些发现强调了进一步研究 LLMs 推理能力及探索更复杂的 AI 推理和规划模型的必要性。

Nov, 2023

利用大型语言模型进行网络安全夺旗挑战和认证问题

评估网络安全 Capture-The-Flag（CTF）练习中使用大型语言模型（LLMs）的能力，并探讨它对课堂教学、CTF 挑战的影响以及相关的学术诚信问题。

Aug, 2023

数学阅读理解题为何对语言学习者具挑战性？

本文研究了大型语言模型在数学问题中面临的挑战，通过对数学问题的语言和数学特征进行深入分析，并训练基于特征的分类器来理解各个特征对数学问题整体难度的影响，并探讨这是否有助于预测大型语言模型在特定类别的数学问题中的表现。

Mar, 2024

PuzzleBench: LLM 能解决挑战性的一阶组合推理问题吗？

我们工作的目标是探索语言模型是否可以解决复杂的一阶组合推理问题，例如数独，尽管现有的 LLMs 在这些问题上表现较差。因此，我们提出了一种新的方法，Puzzle-LM，将 LLMs 与符号求解器和程序解释器相结合，以改善解决这些问题的能力。我们还展示了通过解决较小的实例获得的反馈如何提高推理能力。

Feb, 2024

LLM 不是智能思考者：引入数学主题树基准评估来全面评估 LLMs

大语言模型在数学推理方面展示了令人印象深刻的能力，但目前的评估仅限于特定的数学主题，不清楚大语言模型是否真正参与了推理。为了填补这些研究空白，我们提出了数学主题树（MaTT）基准，这是一个具有挑战性和结构化的基准，提供了 1,958 个关于各种数学学科的问题，并配以详细的层级链。通过使用 MaTT 基准评估不同的大语言模型，我们发现最先进的模型 GPT-4 在多项选择场景下仅达到 54％的准确度。有趣的是，即使在使用思维链提示的情况下，我们也几乎没有观察到明显的改进。此外，当问题在没有可选项的情况下提供时，大语言模型的准确度显著下降了 24.2 个百分点。对于一系列主题的大语言模型的详细性能分析表明，即使是在相同的数学领域中的紧密相关子主题之间，也存在显着差异。为了找出大语言模型性能背后的原因，当有可选项时，我们对 GPT-4 生成的解释的完整性和准确性进行了手动评估。令人惊讶的是，在模型提供正确答案的情况下，只有 53.3％的解释被认为是完整和准确的，即模型进行了真正的推理。

Jun, 2024

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

跨越和穿过：将填字游戏作为新的 NLP 基准引入

该研究提出将填字游戏作为新的自然语言理解任务，并公开发布了从纽约时报跨越 25 年的近九千个填字游戏的语料库规范，以及包含超过半百万个独特线索 - 答案对的开放域问答数据集，并探讨了多种处理方法及评价框架。

May, 2022