May, 2025

利用不断发展的排行榜评估RAG中LLM的可信度

TL;DR本文针对LLM在摘要任务中的幻觉问题展开研究,评估LLM在总结文档时引入幻觉的频率。提出了一种新颖的方法FaithJudge,通过少量人类幻觉注释为引导,显著提升了LLM幻觉评估的自动化效果,并建立了以此为中心的改进幻觉排行榜,为LLM在RAG中的性能基准测试提供了更可靠的工具。