Oct, 2024
FactBench:一个动态基准测试用于真实环境下语言模型的事实性评估
FactBench: A Dynamic Benchmark for In-the-Wild Language Model Factuality
Evaluation
TL;DR本研究解决了语言模型在实际用户交互中维持事实准确性的问题。提出的VERIFY管道通过验证模型生成内容的可验证性,并识别出“幻觉提示”,形成一个包含150个细分主题的1K提示的数据集FactBench。显著发现包括专有模型在事实性上表现更好,但随着提示难度增加,其表现出现下降。