BriefGPT.xyz
Ask
alpha
关键词
llm developers
搜索结果 - 3
Chatbot Arena: 通过人类偏好评估 LLM 的开放平台
Chatbot Arena 是一种基于人类偏好评估大型语言模型的开放平台,通过对接受众来源的成对比较和众包输入的方式收集数据,并使用经过验证的统计方法进行评估和排名,以确保其可靠性和可信度,成为最有价值和最引用的大型语言模型排行榜之一。
PDF
4 months ago
当下现状?对多指令语言模型评估的呼吁
通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性,我们提出使用一套多样的提示来评估大型语言模型,为特定的使用场景(例如 LLM 开发人员与对特定下游任务感兴趣的开发人员
→
PDF
6 months ago
LegalBench:一个协作构建的基准测试,用于评估大型语言模型在法律推理方面的表现
介绍了 LegalBench,对 20 个开源和商业的大型语言模型进行了实证评估,并展示了 LegalBench 所提供的研究探索类型。
PDF
a year ago
Prev
Next