Jan, 2024

使用知识图谱评估复杂问题回答和归因的大型语言模型基准

TL;DR使用知识图谱为问题 - 答案对自动生成不同类别的归因,并引入细分类型(支持性、不足、矛盾和不相关)来衡量归因,评估现有评估方法在细致归因设置下的表现较差,使用人工注释验证的 CAQA 基准为选择和开发 LLM 归因评估器提供了有前景的工具。