BriefGPT.xyz
大模型
Ask
alpha
关键词
automated evaluators
搜索结果 - 2
大型语言模型中的长篇事实准确性
大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性,我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集,然后提出利用 LLM 代理作为长篇事实性的自动化评估
→
PDF
3 months ago
分割与合并:对基于大型语言模型的评估器中的位置偏差进行对齐
提出了一种名为 PORTIA 的系统,通过模拟人类比较策略来校准位置偏差,将多个候选答案的相似内容进行对齐并合并为一个问题进行大语言模型评估,实验证明 PORTIA 显著提高了所有模型的一致性,将费用降低至原来的 10%,并成功纠正了模型中
→
PDF
9 months ago
Prev
Next