Jul, 2024

Review-Feedback-Reason(ReFeR):一种新颖的自然语言生成(NLG)评估和推理框架

TL;DR通过利用LLM代理使用Review-Feedback-Reason (ReFeR)的新型评估框架,本研究提出一种评估自然语言生成质量的方法,不仅能够提高NLG评估的准确性,超过以前的基准约20%,还能生成建设性反馈并显著改善集体推理的能力。该方法在三个推理基准测试中表现出色,超过大部分最先进的方法,并在平均水平上比GPT-3.5 Turbo高出约11.67%和GPT-4高出约1%。