SemEval-2024 任务 9：BRAINTEASER：一个违反常识的新任务

Apr, 2024

SemEval-2024 任务 9：BRAINTEASER：一个违反常识的新任务

SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense

Yifan Jiang, Filip Ilievski, Kaixin Ma

TL;DR这篇论文介绍了一个基准测试以评估当前模型的横向思维能力，其中一个任务是测试系统的推理和横向思维能力，在竞赛中接受了 483 个团队的提交。

Abstract

While vertical thinking relies on logical and commonsense reasoning, lateral thinking requires systems to defy commonsense associations and overwrite them through unconventional thinking. lateral thinking has bee

lateral thinking benchmark systems fine-tuning competition

发现论文，激发创造

大型语言模型的侧面思维谜题

我们设计了 BRAINTEASER 任务来测试模型展示横向思维和打破默认常识关联的能力，研究发现，现有的指导型与常识语言模型在横向思维方面与人类表现相比存在显著差距，特别是在对抗性格式的一致性上。

Oct, 2023

DaVinci 参与 SemEval-2024 第 9 任务：少样本引导 GPT-3.5 进行非常规推理

这篇论文介绍了在 NLP 领域中进行的关于垂直思维的重要工作，随后探讨了对横向思维的研究不足以及 SemEval 2024 引入的 BRAINTEASER 任务，主要涉及句子拼图和词语拼图两种类型的问题，并借助 GPT-3.5 上使用少量提示的方法处理这两种类型的问题，并从中获得了对两种类型问题性质差异的洞见。在 Sentence Puzzle 和 Word Puzzle 任务中，我们的提示策略在排行榜上分别位列第 26 和第 15。

May, 2024

iREL 参加 SemEval-2024 任务 9：改进传统提示方法以解决脑筋急转弯

这篇论文描述了我们在 SemEval-2024 任务 9 中的方法：BRAINTEASER：一项挑战常识的创新任务。BRAINTEASER 任务包括多项选择问答，旨在评估模型的横向思维能力。它由句子拼图和单词拼图子任务组成，要求模型打破默认的常识联系，展现非传统的思维方式。我们提出了一种独特的策略，以改进预训练语言模型（特别是 Gemini 1.0 Pro 模型）在两个子任务中的性能。我们采用静态和动态的少样本提示技术，并引入了一个模型生成的推理策略，利用语言模型的推理能力来提高性能。我们的方法取得了显著的改进，表现远优于基准模型，但仍不及人类标注者，从而凸显了所提策略的功效。

May, 2024

BAMO 在 SemEval-2024 任务 9 中的表现：BRAINTEASER: 一个违背常识的新任务

该研究使用语言模型如 BERT 和 RoBERTa Large 来解决 SemEval 2024 BRAINTEASER 任务，通过使用 Chain of Thought 和 zero-shot learning 的方法，最终在句子难题子任务上实现了 85% 的准确率。

Jun, 2024

AmazUtah_NLP 在 SemEval-2024 任务 9 上的工作：一种用于常识违背推理的多项选择题回答系统

利用综合策略和先进的预训练模型，以及 Sentence 和 Word Puzzle 数据集作为训练数据，并结合幽默 / 笑话和 RiddleSense 数据集进行模型微调，实现了 92.5％的句子拼图子任务准确率和 80.2％的词语拼图子任务准确率。

May, 2024

AILS-NTUA 在 SemEval-2024 任务 9 中的表现：解决脑筋急转弯：基于 Transformer 的侧面思维谜题模型

研究人员通过精调不同规模的预训练基于转换器的语言模型，并对其得分和响应进行分析，以帮助未来的研究人员有效理解和利用这些模型。他们的顶级方法在两个子任务中取得了竞争地位，在评估阶段，他们的最佳提交在句子拼图和词语拼图中分别获得了 81.7% 和 85.4% 的平均准确度得分，分别比最佳神经基线 (ChatGPT) 高出超过 20% 和 30%。

Apr, 2024

uTeBC-NLP 在 SemEval-2024 任务 9 中：LLMs 能否成为横向思考者？

Leveraging a benchmark for lateral thinking, this paper examines the effects of various prompting methods on the performance of LLMs, highlighting the benefits of compressed informative prompts, dynamic in-context learning, and fine-tuning Zephyr.

Apr, 2024

LatEval: 一个包含来自横向思维谜题的不完整信息的交互式 LLMs 评估基准

通过最新的评估基准 LatEval，该研究探讨了语言模型在问答提问质量和信息整合方面的潜力，发现大部分模型在运用侧向思考时存在困难，提出了具有挑战性的任务，对于开发高效 AI 助手非常关键。

Aug, 2023

Mothman 参加 SemEval-2024 任务 9：一种用于思路链条推导优化的迭代系统

我们提出一种迭代的思维链工程系统，通过人工评估来优化提示，以显著提高模型性能，并对输入数据集进行评估。

May, 2024

错失的联系：大型语言模型的横向思维谜题

通过研究自动化 AI 系统在 Connections 谜题中的效果，该研究探讨了该游戏作为抽象推理的自动化基准测试和衡量数据驱动语言系统中编码的语义信息的潜力。研究发现 Connections 谜题具有挑战性和可行性，是未来工作的重要测试平台。

Apr, 2024