跨越和穿过:将填字游戏作为新的 NLP 基准引入
使用大型语言模型解决填字游戏的挑战,展示了当前最先进的语言模型在解谜填字提示方面的显著能力,性能达到先前结果的 2-3 倍,还开发了基于这一性能的搜索算法,首次使用语言模型解决完整的填字方格问题,在纽约时报的填字游戏上实现了 93% 的准确率,研究表明语言模型与人类专家的性能差距更小。
Jun, 2024
本研究提出了一个自动生成以新闻为中心的填字游戏的框架,通过包含尽可能多的新闻相关单词,来增加人们对新闻的兴趣,并通过对原型的定性评估总结了当前问题和未来研究方向。这是首个提出将约束满足和优化问题的形式化应用于教育领域的建议。
Aug, 2023
本文提出了伯克利填字游戏求解器,该系统使用神经问答模型生成填字谜面的答案候选,并将循环置信传播与本地搜索相结合,以找到完整的谜底解。与现有方法相比,我们的系统使得填字准确率从 71% 提高到 82%。此外,我们还分析了系统的剩余错误并发布了一个包含超过 600 万个问题答案对的数据集。
May, 2022
教育性填字游戏的制作利用自然语言处理和机器学习技术生成并验证谜底,其中包括使用 GPT3 和 BERT 模型生成谜底和从文本中提取提示,并通过零 / 少次学习确保质量,研究结果表明该方法能够创建高质量的教育性填字游戏。
Nov, 2023
通过研究自动化 AI 系统在 Connections 谜题中的效果,该研究探讨了该游戏作为抽象推理的自动化基准测试和衡量数据驱动语言系统中编码的语义信息的潜力。研究发现 Connections 谜题具有挑战性和可行性,是未来工作的重要测试平台。
Apr, 2024
该研究介绍了一种利用大型语言模型(LLM)进行教育目的的土耳其纵横字谜生成器,并提供了两个特殊数据集,其中一个包含超过 18 万个唯一的答案 - 提示对,用于从给定答案生成相关提示,另一个包含超过 3.5 万个包含文本、答案、类别和提示数据的样本,旨在为特定文本和关键词生成特定类别的提示。除了娱乐之外,这个生成器成为一种互动教育工具,提高记忆力、词汇量和问题解决能力。对于土耳其语而言,它是人工智能增强教育的一个显著步骤,将游戏式的参与与学习相结合,在土耳其语中建立了互动、智能学习工具的新标准。
May, 2024
通过从维基百科页面中收集与相关关键词相关的信息内容,利用大型语言模型自动生成与给定输入关键词及其上下文相关的教育线索,我们提出了一种构建教育线索生成数据集的方法,并使用此方法创建了一个包含 44075 个唯一示例的数据集:clue-instruct。我们使用 clue-instruct 来教授不同的大型语言模型从给定的输入内容和关键词中生成教育线索,无论是人工评估还是自动评估,都证实了生成线索的质量,从而验证了我们方法的有效性。
Apr, 2024
我们设计了 BRAINTEASER 任务来测试模型展示横向思维和打破默认常识关联的能力,研究发现,现有的指导型与常识语言模型在横向思维方面与人类表现相比存在显著差距,特别是在对抗性格式的一致性上。
Oct, 2023
使用大型语言模型和 PUZZLEQA 数据集探索解决和生成 NPR Sunday Puzzle 游戏节目谜题的能力,并发现大型语言模型可以解决 PUZZLEQA 谜题,但在生成谜题方面表现不佳,需要未来的研究。
Jun, 2023