BriefGPT.xyz
Ask
alpha
关键词
realmistake
搜索结果 - 1
评估 L 的 M 在检测 L 回应中的错误
ReaLMistake 是第一个错误检测基准工具,包含了 LLMs 的客观、实际和多样化错误。通过评估 12 种 LLMs 的错误检测器,发现 LLMs 的错误检测性能低于人类,并且解释不可靠,对提示的微小变化敏感而改进困难,同时改进 LL
→
PDF
3 months ago
Prev
Next