Mothman 参加 SemEval-2024 任务 9:一种用于思路链条推导优化的迭代系统
我们的研究采用大型语言模型 (LLMs) 和几种提示技术解决自然语言理解测试中提供的谜题数据集。通过零瞄和少瞄提示,相较于开源模型,我们的专有模型表现出合理的结果。通过分步提示的迭代提示方法,我们进一步改进了结果。通过使用一系列分步提示,我们在字谜题子任务中获得第二名,在句子谜题子任务中获得第 13 名。提示型大型语言模型表现出较强的性能,证明了当提供思维过程分解时,它们具备处理复杂推理的能力。我们的工作揭示了分步解释性提示如何释放大型模型参数中更多的知识。
Mar, 2024
Leveraging a benchmark for lateral thinking, this paper examines the effects of various prompting methods on the performance of LLMs, highlighting the benefits of compressed informative prompts, dynamic in-context learning, and fine-tuning Zephyr.
Apr, 2024
这篇论文描述了我们在 SemEval-2024 任务 9 中的方法:BRAINTEASER:一项挑战常识的创新任务。BRAINTEASER 任务包括多项选择问答,旨在评估模型的横向思维能力。它由句子拼图和单词拼图子任务组成,要求模型打破默认的常识联系,展现非传统的思维方式。我们提出了一种独特的策略,以改进预训练语言模型(特别是 Gemini 1.0 Pro 模型)在两个子任务中的性能。我们采用静态和动态的少样本提示技术,并引入了一个模型生成的推理策略,利用语言模型的推理能力来提高性能。我们的方法取得了显著的改进,表现远优于基准模型,但仍不及人类标注者,从而凸显了所提策略的功效。
May, 2024
该研究使用语言模型如 BERT 和 RoBERTa Large 来解决 SemEval 2024 BRAINTEASER 任务,通过使用 Chain of Thought 和 zero-shot learning 的方法,最终在句子难题子任务上实现了 85% 的准确率。
Jun, 2024
我们设计了 BRAINTEASER 任务来测试模型展示横向思维和打破默认常识关联的能力,研究发现,现有的指导型与常识语言模型在横向思维方面与人类表现相比存在显著差距,特别是在对抗性格式的一致性上。
Oct, 2023
本研究探索了一个迭代提示框架,用于让预训练语言模型具有多步推理能力,我们提出了一种基于上下文的迭代提示器,可以动态地合成提示,以捕捉不同推理步骤之间的变化。实验证明,该方法在多步推理方面具有很好的效果。
Mar, 2022
利用综合策略和先进的预训练模型,以及 Sentence 和 Word Puzzle 数据集作为训练数据,并结合幽默 / 笑话和 RiddleSense 数据集进行模型微调,实现了 92.5%的句子拼图子任务准确率和 80.2%的词语拼图子任务准确率。
May, 2024
这篇论文介绍了在 NLP 领域中进行的关于垂直思维的重要工作,随后探讨了对横向思维的研究不足以及 SemEval 2024 引入的 BRAINTEASER 任务,主要涉及句子拼图和词语拼图两种类型的问题,并借助 GPT-3.5 上使用少量提示的方法处理这两种类型的问题,并从中获得了对两种类型问题性质差异的洞见。在 Sentence Puzzle 和 Word Puzzle 任务中,我们的提示策略在排行榜上分别位列第 26 和第 15。
May, 2024
通过 chain of thought prompting 方法,在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能,甚至超过 fine-tuned GPT-3。
Jan, 2022
通过探索不同的思维链和验证推理过程中的各个步骤,我们提出了三个模型应遵循的原则(相关性、数学准确性和逻辑一致性),并将这些原则应用于大型语言模型的推理步骤,以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成,我们在 4 种不同类型的推理任务上评估了我们的方法,涵盖了共计 9 个不同的数据集。实验证明,我们的方法始终优于基准生成,并且在 9 个数据集中的 6 个数据集中,优于最佳的 N 个采样方法。
Apr, 2024