May, 2023
LLMs作为事实推理器:现有基准和未来展望的洞见
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond
TL;DR通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点,该数据集比以前的数据集更高效且高度可重复。然而,大多数 LL 模型在 SummEdits 上表现不佳,最好的 GPT-4 模型仍然比人类的表现差8%,这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。