Apr, 2024

评估 L 的 M 在检测 L 回应中的错误

TL;DRReaLMistake 是第一个错误检测基准工具,包含了 LLMs 的客观、实际和多样化错误。通过评估 12 种 LLMs 的错误检测器,发现 LLMs 的错误检测性能低于人类,并且解释不可靠,对提示的微小变化敏感而改进困难,同时改进 LLMs 的流行方法也不能提高错误检测性能。