Jan, 2024

WSC+: 基于专家树的增强Winograd Schema挑战

TL;DR提出了Tree-of-Experts (ToE)这一新的提示方法,以增强Winograd Schema Challenge中问题的生成,引入了包含3,026个由Large Language Models生成的句子的新数据集WSC+,并通过将新的'ambiguous'和'offensive'类别纳入WSC框架中,提供了对模型过度自信与偏见的更深入洞察。分析揭示了生成-评估一致性的细微差别,表明与其他模型生成的问题相比,LLMs在评估自己生成的问题时并不总是表现出色。在WSC+上,GPT-4,最好的LLM,准确率为68.7%,明显低于人类基准的95.1%。