Feb, 2024

SemEval-2024 任务 9:解码脑筋急转弯的有效性 —— 专用模型与 ChatGPT 的对比

TL;DR本研究提出了一种专用模型,旨在解决 BRAINTEASER 任务,这是一个设计用来评估模型通过句子和单词谜题的侧向思维能力的新挑战。我们的模型在测试阶段在解决句子谜题方面表现出卓越的效果,总得分达到 0.98。此外,我们探讨了 ChatGPT 的比较性能,特别分析了温度设置变化对其参与侧向思维和问题解决能力的影响。我们的发现显示了专用模型和 ChatGPT 之间显著的性能差异,凸显了专门方法在增强人工智能中的创造性推理能力方面的潜力。