BriefGPT.xyz
Ask
alpha
关键词
elo rating system
搜索结果 - 2
通过最大差异竞争实现对大型语言模型的高效人工评估
提出一种基于最大偏差(MAD)竞争的样本有效人工评估方法,用于评估大型语言模型的能力与相对优劣,并针对知识理解、数学推理、写作和编码等四种技能,提供有价值的进一步研究发展的见解。
PDF
3 months ago
EMNLP
Elo 揭示:语言模型评估的稳健性和最佳实践
在自然语言处理 (NLP) 中,Elo 等级系统被用于评估大型语言模型 (LLMs) 的准确性和可靠性,然而其在评估具有恒定技能水平,如 LLMs 等实体方面的适用性仍然相对未被探索。本文研究了评估方法应遵循的两个基本公理:可靠性和传递性,
→
PDF
7 months ago
Prev
Next