Cryptonite: 一份极度歧义语言的密语填字基准

EMNLPMar, 2021

Cryptonite: 一份极度歧义语言的密语填字基准

Cryptonite: A Cryptic Crossword Benchmark for Extreme Ambiguity in Language

Avia Efrat, Uri Shaham, Dan Kilman, Omer Levy

TL;DR提出一个基于密码填字游戏的大规模数据集 Cryptonite，要求解出由语义、语法、音位上的文字玩偶和世界知识构成的密语线索，该任务难度高，当前模型的表现只有 7.6%，与基于规则的求解器的表现相当。

Abstract

Current nlp datasets targeting ambiguity can be solved by a native speaker with relative ease. We present Cryptonite, a large-scale dataset based on cryptic crosswords, which is both →

nlp cryptic crosswords linguistically complex disambiguation world knowledge

发现论文，激发创造

跨越和穿过：将填字游戏作为新的 NLP 基准引入

该研究提出将填字游戏作为新的自然语言理解任务，并公开发布了从纽约时报跨越 25 年的近九千个填字游戏的语料库规范，以及包含超过半百万个独特线索 - 答案对的开放域问答数据集，并探讨了多种处理方法及评价框架。

May, 2022

线索指导：面向教育填字游戏的基于文本的线索生成

通过从维基百科页面中收集与相关关键词相关的信息内容，利用大型语言模型自动生成与给定输入关键词及其上下文相关的教育线索，我们提出了一种构建教育线索生成数据集的方法，并使用此方法创建了一个包含 44075 个唯一示例的数据集：clue-instruct。我们使用 clue-instruct 来教授不同的大型语言模型从给定的输入内容和关键词中生成教育线索，无论是人工评估还是自动评估，都证实了生成线索的质量，从而验证了我们方法的有效性。

Apr, 2024

LLM 是否是出色的密码填字游戏解答者？

利用三种大型语言模型对神秘填字游戏进行基准测试，结果显示它们在这个任务上的表现远远低于人类。

Mar, 2024

语言模型是纵横字谜的解答者

使用大型语言模型解决填字游戏的挑战，展示了当前最先进的语言模型在解谜填字提示方面的显著能力，性能达到先前结果的 2-3 倍，还开发了基于这一性能的搜索算法，首次使用语言模型解决完整的填字方格问题，在纽约时报的填字游戏上实现了 93% 的准确率，研究表明语言模型与人类专家的性能差距更小。

Jun, 2024

意大利填字游戏生成器：通过互动词谜增强教育

教育性填字游戏的制作利用自然语言处理和机器学习技术生成并验证谜底，其中包括使用 GPT3 和 BERT 模型生成谜底和从文本中提取提示，并通过零 / 少次学习确保质量，研究结果表明该方法能够创建高质量的教育性填字游戏。

Nov, 2023

一款土耳其教育性填字游戏

该研究介绍了一种利用大型语言模型（LLM）进行教育目的的土耳其纵横字谜生成器，并提供了两个特殊数据集，其中一个包含超过 18 万个唯一的答案 - 提示对，用于从给定答案生成相关提示，另一个包含超过 3.5 万个包含文本、答案、类别和提示数据的样本，旨在为特定文本和关键词生成特定类别的提示。除了娱乐之外，这个生成器成为一种互动教育工具，提高记忆力、词汇量和问题解决能力。对于土耳其语而言，它是人工智能增强教育的一个显著步骤，将游戏式的参与与学习相结合，在土耳其语中建立了互动、智能学习工具的新标准。

May, 2024

自动填字游戏求解

本文提出了伯克利填字游戏求解器，该系统使用神经问答模型生成填字谜面的答案候选，并将循环置信传播与本地搜索相结合，以找到完整的谜底解。与现有方法相比，我们的系统使得填字准确率从 71% 提高到 82%。此外，我们还分析了系统的剩余错误并发布了一个包含超过 600 万个问题答案对的数据集。

May, 2022

PuzzLing Machines: 从小数据学习的挑战

介绍了一个名为 PuzzLing Machines 的小数据学习挑战，该挑战包含来自语言奥林匹克的石碑难题，展示了目前包括最先进的深度神经网络模型在内的简单的统计算法无法完成这一挑战，这启发了新的 NLP 发展方向 -- 人类般思考的理解。

Apr, 2020

跨多语言的复杂词辨识强基线

本文介绍了关于复杂词汇辨识（CWI）的研究，包括单语和跨语言的模型，并使用神经网络实现了多任务学习，取得了可比和更好的成果，此外还分析了数据标注不一致的原因。

Apr, 2019

教师创建的大规模完形填空测试数据集

本篇论文提出了一种新的人造填空测试数据集 CLOTH，并测试了基于语言模型、自动化模型，和人类模型的表现，结果显示人类模型比基线模型优秀，并且分析了基线模型不足之处，发现理解长时期语境是关键瓶颈。

Nov, 2017