Oct, 2023

KITAB: 对于信息检索的约束满足性评估 LLMs

TL;DR我们研究了目前最先进的模型在回答信息检索的约束满足查询(例如 “圣地亚哥的冰淇淋店列表”)方面的能力。我们介绍了 KITAB 数据集,它包括与 600 多位作者和 13000 多个查询相关的图书相关数据,并提供了相关的动态数据收集和约束验证方法,以获得其他作者的类似测试数据。结果表明,在缺乏上下文的情况下,模型在满足约束方面存在严重局限,包括与查询无关的信息、事实错误和不完整性等问题。尽管上下文的可用性可以减少与查询无关的信息,但它对满足约束并不有帮助,从而揭示出约束满足的根本障碍。我们开源我们的贡献,以促进未来模型在改善约束满足能力方面的进一步研究。