关键词multiple-choice benchmarks
搜索结果 - 2
- 为什么使用规模预测前沿的人工智能模型的下游能力如此困难?
通过使用五个模型家族和十二个多项选择基准测试,我们展示了通过负对数似然性能计算的一系列转换逐渐降低了性能和规模之间的统计关系,同时揭示了导致这种降级的机制:下游度量要求将正确的选择与少量特定的错误选择进行比较,这意味着准确预测下游能力不仅要 - NL-ITI:优化探测和干预以改进 ITI 方法
大型语言模型容易返回虚假信息,为了解决这个问题,该研究探索了一种介入推理时间的范式,引入了非线性探测和多标记介入方法,称之为 Non-Linear ITI。该方法在多种多项选择基准测试中取得了鼓舞人心的结果,并且在与其他基线和模型相比的实验