Mar, 2024
多选题是否能够有效地检测LLM的能力?
Can multiple-choice questions really be useful in detecting the
abilities of LLMs?
TL;DR在这篇论文中,我们评估了九个大语言模型在两种语言(中文和英文)的四个问答数据集上的表现,发现大语言模型在双语的多选题中存在一种顺序敏感性,竞争第一位置的选项更容易被选择,与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法,并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。