跨越和穿过：将填字游戏作为新的 NLP 基准引入

ACLMay, 2022

跨越和穿过：将填字游戏作为新的 NLP 基准引入

Down and Across: Introducing Crossword-Solving as a New NLP Benchmark

Saurabh Kulshreshtha, Olga Kovaleva, Namrata Shivagunde, Anna Rumshisky

TL;DR该研究提出将填字游戏作为新的自然语言理解任务，并公开发布了从纽约时报跨越 25 年的近九千个填字游戏的语料库规范，以及包含超过半百万个独特线索 - 答案对的开放域问答数据集，并探讨了多种处理方法及评价框架。

Abstract

Solving crossword puzzles requires diverse reasoning capabilities, access to a vast amount of knowledge about language and the world, and the ability to satisfy the constraints imposed by the structure of the puzzle. In this work, we introduce solving →

crossword puzzles natural language understanding clue-answer pairs question answering performance metrics

发现论文，激发创造

语言模型是纵横字谜的解答者

使用大型语言模型解决填字游戏的挑战，展示了当前最先进的语言模型在解谜填字提示方面的显著能力，性能达到先前结果的 2-3 倍，还开发了基于这一性能的搜索算法，首次使用语言模型解决完整的填字方格问题，在纽约时报的填字游戏上实现了 93% 的准确率，研究表明语言模型与人类专家的性能差距更小。

Jun, 2024

作为约束满足和优化问题的生成以新闻为中心的纵横填字谜

本研究提出了一个自动生成以新闻为中心的填字游戏的框架，通过包含尽可能多的新闻相关单词，来增加人们对新闻的兴趣，并通过对原型的定性评估总结了当前问题和未来研究方向。这是首个提出将约束满足和优化问题的形式化应用于教育领域的建议。

Aug, 2023

自动填字游戏求解

本文提出了伯克利填字游戏求解器，该系统使用神经问答模型生成填字谜面的答案候选，并将循环置信传播与本地搜索相结合，以找到完整的谜底解。与现有方法相比，我们的系统使得填字准确率从 71% 提高到 82%。此外，我们还分析了系统的剩余错误并发布了一个包含超过 600 万个问题答案对的数据集。

May, 2022

意大利填字游戏生成器：通过互动词谜增强教育

教育性填字游戏的制作利用自然语言处理和机器学习技术生成并验证谜底，其中包括使用 GPT3 和 BERT 模型生成谜底和从文本中提取提示，并通过零 / 少次学习确保质量，研究结果表明该方法能够创建高质量的教育性填字游戏。

Nov, 2023

错失的联系：大型语言模型的横向思维谜题

通过研究自动化 AI 系统在 Connections 谜题中的效果，该研究探讨了该游戏作为抽象推理的自动化基准测试和衡量数据驱动语言系统中编码的语义信息的潜力。研究发现 Connections 谜题具有挑战性和可行性，是未来工作的重要测试平台。

Apr, 2024

一款土耳其教育性填字游戏

该研究介绍了一种利用大型语言模型（LLM）进行教育目的的土耳其纵横字谜生成器，并提供了两个特殊数据集，其中一个包含超过 18 万个唯一的答案 - 提示对，用于从给定答案生成相关提示，另一个包含超过 3.5 万个包含文本、答案、类别和提示数据的样本，旨在为特定文本和关键词生成特定类别的提示。除了娱乐之外，这个生成器成为一种互动教育工具，提高记忆力、词汇量和问题解决能力。对于土耳其语而言，它是人工智能增强教育的一个显著步骤，将游戏式的参与与学习相结合，在土耳其语中建立了互动、智能学习工具的新标准。

May, 2024

线索指导：面向教育填字游戏的基于文本的线索生成

通过从维基百科页面中收集与相关关键词相关的信息内容，利用大型语言模型自动生成与给定输入关键词及其上下文相关的教育线索，我们提出了一种构建教育线索生成数据集的方法，并使用此方法创建了一个包含 44075 个唯一示例的数据集：clue-instruct。我们使用 clue-instruct 来教授不同的大型语言模型从给定的输入内容和关键词中生成教育线索，无论是人工评估还是自动评估，都证实了生成线索的质量，从而验证了我们方法的有效性。

Apr, 2024

大型语言模型的侧面思维谜题

我们设计了 BRAINTEASER 任务来测试模型展示横向思维和打破默认常识关联的能力，研究发现，现有的指导型与常识语言模型在横向思维方面与人类表现相比存在显著差距，特别是在对抗性格式的一致性上。

Oct, 2023

LLM 是否是出色的密码填字游戏解答者？

利用三种大型语言模型对神秘填字游戏进行基准测试，结果显示它们在这个任务上的表现远远低于人类。

Mar, 2024

用大型语言模型解决和生成 NPR Sunday Puzzles

使用大型语言模型和 PUZZLEQA 数据集探索解决和生成 NPR Sunday Puzzle 游戏节目谜题的能力，并发现大型语言模型可以解决 PUZZLEQA 谜题，但在生成谜题方面表现不佳，需要未来的研究。

Jun, 2023