Jan, 2025

FACTS基础领导者榜单:评估大型语言模型针对长文本输入的响应准确性

TL;DR本研究提出了FACTS Grounding,一个在线领导者榜单及其基准,旨在评估语言模型生成相对于用户提示所给上下文的事实准确性。通过要求长形式响应完全依赖于提供的文档,该研究展示了一种新的评估方法,并发现这一框架能有效评判模型的响应准确性和满足用户请求的能力。