大型语言模型的侧面思维谜题

Oct, 2023

BRAINTEASER: Lateral Thinking Puzzles for Large Language Model

Yifan Jiang, Filip Ilievski, Kaixin Ma

TL;DR我们设计了 BRAINTEASER 任务来测试模型展示横向思维和打破默认常识关联的能力，研究发现，现有的指导型与常识语言模型在横向思维方面与人类表现相比存在显著差距，特别是在对抗性格式的一致性上。

Abstract

The success of language models has inspired the NLP community to attend to tasks that require implicit and complex reasoning, relying on human-like commonsense mechanisms. While such vertical thinking tasks have

language models lateral thinking question answering commonsense mechanisms benchmark

发现论文，激发创造

SemEval-2024 任务 9：BRAINTEASER：一个违反常识的新任务

这篇论文介绍了一个基准测试以评估当前模型的横向思维能力，其中一个任务是测试系统的推理和横向思维能力，在竞赛中接受了 483 个团队的提交。

Apr, 2024

AmazUtah_NLP 在 SemEval-2024 任务 9 上的工作：一种用于常识违背推理的多项选择题回答系统

利用综合策略和先进的预训练模型，以及 Sentence 和 Word Puzzle 数据集作为训练数据，并结合幽默 / 笑话和 RiddleSense 数据集进行模型微调，实现了 92.5％的句子拼图子任务准确率和 80.2％的词语拼图子任务准确率。

May, 2024

错失的联系：大型语言模型的横向思维谜题

通过研究自动化 AI 系统在 Connections 谜题中的效果，该研究探讨了该游戏作为抽象推理的自动化基准测试和衡量数据驱动语言系统中编码的语义信息的潜力。研究发现 Connections 谜题具有挑战性和可行性，是未来工作的重要测试平台。

Apr, 2024

iREL 参加 SemEval-2024 任务 9：改进传统提示方法以解决脑筋急转弯

这篇论文描述了我们在 SemEval-2024 任务 9 中的方法：BRAINTEASER：一项挑战常识的创新任务。BRAINTEASER 任务包括多项选择问答，旨在评估模型的横向思维能力。它由句子拼图和单词拼图子任务组成，要求模型打破默认的常识联系，展现非传统的思维方式。我们提出了一种独特的策略，以改进预训练语言模型（特别是 Gemini 1.0 Pro 模型）在两个子任务中的性能。我们采用静态和动态的少样本提示技术，并引入了一个模型生成的推理策略，利用语言模型的推理能力来提高性能。我们的方法取得了显著的改进，表现远优于基准模型，但仍不及人类标注者，从而凸显了所提策略的功效。

May, 2024

DaVinci 参与 SemEval-2024 第 9 任务：少样本引导 GPT-3.5 进行非常规推理

这篇论文介绍了在 NLP 领域中进行的关于垂直思维的重要工作，随后探讨了对横向思维的研究不足以及 SemEval 2024 引入的 BRAINTEASER 任务，主要涉及句子拼图和词语拼图两种类型的问题，并借助 GPT-3.5 上使用少量提示的方法处理这两种类型的问题，并从中获得了对两种类型问题性质差异的洞见。在 Sentence Puzzle 和 Word Puzzle 任务中，我们的提示策略在排行榜上分别位列第 26 和第 15。

May, 2024

uTeBC-NLP 在 SemEval-2024 任务 9 中：LLMs 能否成为横向思考者？

Leveraging a benchmark for lateral thinking, this paper examines the effects of various prompting methods on the performance of LLMs, highlighting the benefits of compressed informative prompts, dynamic in-context learning, and fine-tuning Zephyr.

Apr, 2024

利用大语言模型的推理解谜：一项调查研究

对大型语言模型（LLMs）在解谜方面的能力进行探索，揭示了它们在人工智能中的潜力和挑战，这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法，该调查通过各种方法论（包括提示技术、神经符号方法和微调）对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾，我们评估了 LLMs 在复杂谜题情景中的表现，发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度，并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。

Feb, 2024

BAMO 在 SemEval-2024 任务 9 中的表现：BRAINTEASER: 一个违背常识的新任务

该研究使用语言模型如 BERT 和 RoBERTa Large 来解决 SemEval 2024 BRAINTEASER 任务，通过使用 Chain of Thought 和 zero-shot learning 的方法，最终在句子难题子任务上实现了 85% 的准确率。

Jun, 2024

AILS-NTUA 在 SemEval-2024 任务 9 中的表现：解决脑筋急转弯：基于 Transformer 的侧面思维谜题模型

研究人员通过精调不同规模的预训练基于转换器的语言模型，并对其得分和响应进行分析，以帮助未来的研究人员有效理解和利用这些模型。他们的顶级方法在两个子任务中取得了竞争地位，在评估阶段，他们的最佳提交在句子拼图和词语拼图中分别获得了 81.7% 和 85.4% 的平均准确度得分，分别比最佳神经基线 (ChatGPT) 高出超过 20% 和 30%。

Apr, 2024

Mothman 参加 SemEval-2024 任务 9：一种用于思路链条推导优化的迭代系统

我们提出一种迭代的思维链工程系统，通过人工评估来优化提示，以显著提高模型性能，并对输入数据集进行评估。

May, 2024