BriefGPT.xyz
大模型
Ask
alpha
关键词
holistic evaluation
搜索结果 - 2
借助 LLMs 促进整体评估:基于情景实验的见解
探索利用大型语言模型(LLM)作为促进多样评估的工具,实验表明 LLM 有效地促进师资讨论,具备从单一场景中泛化和创建评估标准的能力。
PDF
a month ago
评估问题回答的指令遵循模型的准确性和忠实性
研究中使用检索辅助的指令跟随模型在信息搜索问答任务中的性能表现,并分析了传统指标的不足之处,提出了反映这些模型真实性能的简单基于词汇重叠和模型的度量标准。研究发现,指令跟随模型在正确性方面具有一定竞争力,甚至有时优于微调模型,但在基于提供的
→
PDF
a year ago
Prev
Next