语言模型是纵横字谜的解答者
该研究提出将填字游戏作为新的自然语言理解任务,并公开发布了从纽约时报跨越 25 年的近九千个填字游戏的语料库规范,以及包含超过半百万个独特线索 - 答案对的开放域问答数据集,并探讨了多种处理方法及评价框架。
May, 2022
对大型语言模型(LLMs)在解谜方面的能力进行探索,揭示了它们在人工智能中的潜力和挑战,这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法,该调查通过各种方法论(包括提示技术、神经符号方法和微调)对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾,我们评估了 LLMs 在复杂谜题情景中的表现,发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度,并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。
Feb, 2024
我们的研究引入了一种新的任务 -- 扫雷,旨在测试 LLMs 在陌生格式的任务中的推理和规划能力;我们的实验证明,尽管 LLMs 具备完成该任务所需的基本能力,但它们在将这些能力整合成解决扫雷问题所需的连贯的多步骤逻辑推理过程方面存在困难。这些发现强调了进一步研究 LLMs 推理能力及探索更复杂的 AI 推理和规划模型的必要性。
Nov, 2023
大型语言模型(LLMs)在知识密集型任务中被广泛采用,通过其知识能力取得了令人印象深刻的性能。本研究提出了结构化知识的几何推理,其中以图结构连接了多个知识片段,模型需要填补遗漏的信息。我们使用 Knowledge Crosswords 进行了广泛的实验来评估现有的 LLMs 提示方法,在此基准测试中,附加了两种新方法,即 Staged Prompting 和 Verify-All,以增强 LLMs 的回溯和验证结构性约束的能力。结果表明,虽然基准方法对于简单问题表现良好但在困难问题上表现不佳,我们提出的 Verify-All 方法在性能上大幅优于其他方法,并且对于困难问题更加稳健。进一步分析发现,LLMs 在结构化知识的几何推理能力仍然不够强大或完美,易受选项顺序、特定结构模式、假设存在正确答案等因素的影响。
Oct, 2023
使用大型语言模型和 PUZZLEQA 数据集探索解决和生成 NPR Sunday Puzzle 游戏节目谜题的能力,并发现大型语言模型可以解决 PUZZLEQA 谜题,但在生成谜题方面表现不佳,需要未来的研究。
Jun, 2023
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
该研究介绍了一种利用大型语言模型(LLM)进行教育目的的土耳其纵横字谜生成器,并提供了两个特殊数据集,其中一个包含超过 18 万个唯一的答案 - 提示对,用于从给定答案生成相关提示,另一个包含超过 3.5 万个包含文本、答案、类别和提示数据的样本,旨在为特定文本和关键词生成特定类别的提示。除了娱乐之外,这个生成器成为一种互动教育工具,提高记忆力、词汇量和问题解决能力。对于土耳其语而言,它是人工智能增强教育的一个显著步骤,将游戏式的参与与学习相结合,在土耳其语中建立了互动、智能学习工具的新标准。
May, 2024
本文提出了伯克利填字游戏求解器,该系统使用神经问答模型生成填字谜面的答案候选,并将循环置信传播与本地搜索相结合,以找到完整的谜底解。与现有方法相比,我们的系统使得填字准确率从 71% 提高到 82%。此外,我们还分析了系统的剩余错误并发布了一个包含超过 600 万个问题答案对的数据集。
May, 2022
最近,大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是,它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题,我们引入了一个名为 SearchBench 的新基准测试,其中包含 11 种独特的搜索问题类型,每种问题类型都配备了自动化流程来生成任意数量的实例,并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现,即使是最先进的 LLM 也无法完全以文本方式解决这些问题,例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯,这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助,但是仅有轻微的改进,例如 GPT4 的表现提升到了 11.7%。在这项工作中,我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时,它的潜力得到了充分展现,将 GPT-4 的表现提升到了 57% 以上。
Jun, 2024