BriefGPT.xyz
Ask
alpha
关键词
bilingual mcqs
搜索结果 - 1
多选题是否能够有效地检测 LLM 的能力?
在这篇论文中,我们评估了九个大语言模型在两种语言(中文和英文)的四个问答数据集上的表现,发现大语言模型在双语的多选题中存在一种顺序敏感性,竞争第一位置的选项更容易被选择,与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法,并发现多
→
PDF
3 months ago
Prev
Next