Oct, 2022

MiQA: 多义问题推理基准

TL;DR本研究提出了一个基准来评估大型语言模型处理传统比喻的能力,并结合比喻检测和常识推理的先前孤立主题,要求模型在准确选择字面或隐喻文本之间作出推论。我们考察了最先进的预训练模型在二元选择任务中的表现,并发现小型和非常大型模型性能之间存在巨大差异,从机会之差到接近人类水平。我们还在生成模型的设置中分析了最大的模型,发现虽然接近人类性能,但需要仔细的多次提示。