BriefGPT.xyz
大模型
Ask
alpha
关键词
evaluation bias
搜索结果 - 3
CIF-Bench:一个用于评估大型语言模型通用性的中文指令遵循基准
LLMs 在处理中文任务方面存在限制,该研究引入了中文指令跟踪基准(CIF-Bench),评估 LLMs 对中文语言的零射击泛化能力,并揭示出评估偏差和性能差距问题。
PDF
4 months ago
形式胜于内容:大型语言模型的评估偏见
在评估自然语言生成的过程中,使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而,本研究发现其评估结果存在偏见。为解决这一问题,提出了多维度独立评估系统 (Multi-Elo Rating System),在提高 L
→
PDF
a year ago
大型语言模型不是公正的评估器
本文发现了采用大型语言模型(LLMs)作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验,这种方法成功缓解了评估偏差,与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研
→
PDF
a year ago
Prev
Next