Apr, 2024

评估L的M在检测L回应中的错误

TL;DRReaLMistake是第一个错误检测基准工具,包含了LLMs的客观、实际和多样化错误。通过评估12种LLMs的错误检测器,发现LLMs的错误检测性能低于人类,并且解释不可靠,对提示的微小变化敏感而改进困难,同时改进LLMs的流行方法也不能提高错误检测性能。