BriefGPT.xyz
Ask
alpha
关键词
comparative assessment
搜索结果 - 3
评估开放式语言模型在任务类型、应用领域和推理类型方面的性能:一项深入实验分析
使用十个较小、开放式的语言模型在任务类型、应用领域和推理类型等三个方面进行了深入的实验分析,比较评估了语言模型和提示样式,并且展示了这些模型在特定需求下的有效性,以及与 SOTA 语言模型的竞争能力。
PDF
19 days ago
高效 LLM 比较评估:基于专家框架的配对比较
使用 LLM 法作为评估者的方法是一种实际有效的方式,尤其当以比较评估的方式应用时,能与人类评判相符。本文引入了一种高效的 LLM 比较评估的专家模型(PoE),通过结合不同专家的信息,可得到一个可最大化与潜在候选集相关的表达式,具有高度灵
→
PDF
2 months ago
使用 LLMs 的 Pairwise 比较进行零样本自然语言生成评估
通过用自然语言生成技术输出的对比评估方法来检验大型自然语言模型的表现,使得在不依靠特定域和属性情况下进行评估成为可能。
PDF
a year ago
Prev
Next