BriefGPT.xyz
Ask
alpha
关键词
mixeval
搜索结果 - 1
从 LLM 基准混合中获得群体智慧的 MixEval
提出了一种新的评估大型语言模型的方法 MixEval,通过混合现有的基准测试以匹配来自网络的查询与现有基准测试中的相似查询,建立了有效和可靠的 LLM 评估标准,进一步构建了 MixEval-Hard,为模型改进提供了更大的空间。
PDF
a month ago
Prev
Next