SemEval-2024 任务 9:BRAINTEASER:一个违反常识的新任务
我们设计了 BRAINTEASER 任务来测试模型展示横向思维和打破默认常识关联的能力,研究发现,现有的指导型与常识语言模型在横向思维方面与人类表现相比存在显著差距,特别是在对抗性格式的一致性上。
Oct, 2023
这篇论文介绍了在 NLP 领域中进行的关于垂直思维的重要工作,随后探讨了对横向思维的研究不足以及 SemEval 2024 引入的 BRAINTEASER 任务,主要涉及句子拼图和词语拼图两种类型的问题,并借助 GPT-3.5 上使用少量提示的方法处理这两种类型的问题,并从中获得了对两种类型问题性质差异的洞见。在 Sentence Puzzle 和 Word Puzzle 任务中,我们的提示策略在排行榜上分别位列第 26 和第 15。
May, 2024
这篇论文描述了我们在 SemEval-2024 任务 9 中的方法:BRAINTEASER:一项挑战常识的创新任务。BRAINTEASER 任务包括多项选择问答,旨在评估模型的横向思维能力。它由句子拼图和单词拼图子任务组成,要求模型打破默认的常识联系,展现非传统的思维方式。我们提出了一种独特的策略,以改进预训练语言模型(特别是 Gemini 1.0 Pro 模型)在两个子任务中的性能。我们采用静态和动态的少样本提示技术,并引入了一个模型生成的推理策略,利用语言模型的推理能力来提高性能。我们的方法取得了显著的改进,表现远优于基准模型,但仍不及人类标注者,从而凸显了所提策略的功效。
May, 2024
该研究使用语言模型如 BERT 和 RoBERTa Large 来解决 SemEval 2024 BRAINTEASER 任务,通过使用 Chain of Thought 和 zero-shot learning 的方法,最终在句子难题子任务上实现了 85% 的准确率。
Jun, 2024
利用综合策略和先进的预训练模型,以及 Sentence 和 Word Puzzle 数据集作为训练数据,并结合幽默 / 笑话和 RiddleSense 数据集进行模型微调,实现了 92.5%的句子拼图子任务准确率和 80.2%的词语拼图子任务准确率。
May, 2024
研究人员通过精调不同规模的预训练基于转换器的语言模型,并对其得分和响应进行分析,以帮助未来的研究人员有效理解和利用这些模型。他们的顶级方法在两个子任务中取得了竞争地位,在评估阶段,他们的最佳提交在句子拼图和词语拼图中分别获得了 81.7% 和 85.4% 的平均准确度得分,分别比最佳神经基线 (ChatGPT) 高出超过 20% 和 30%。
Apr, 2024
Leveraging a benchmark for lateral thinking, this paper examines the effects of various prompting methods on the performance of LLMs, highlighting the benefits of compressed informative prompts, dynamic in-context learning, and fine-tuning Zephyr.
Apr, 2024
通过最新的评估基准 LatEval,该研究探讨了语言模型在问答提问质量和信息整合方面的潜力,发现大部分模型在运用侧向思考时存在困难,提出了具有挑战性的任务,对于开发高效 AI 助手非常关键。
Aug, 2023
我们提出一种迭代的思维链工程系统,通过人工评估来优化提示,以显著提高模型性能,并对输入数据集进行评估。
May, 2024
通过研究自动化 AI 系统在 Connections 谜题中的效果,该研究探讨了该游戏作为抽象推理的自动化基准测试和衡量数据驱动语言系统中编码的语义信息的潜力。研究发现 Connections 谜题具有挑战性和可行性,是未来工作的重要测试平台。
Apr, 2024