Apr, 2024

TAXI:评估语言模型的分类知识编辑

TL;DR人工编辑语言模型的知识注入对语义的一致性要求较高,现有的基准数据集无法充分评估一致性,本文创建了 TAXI 基准数据集,并使用它评估了流行编辑器的一致性表现,发现编辑器的一致性明显低于人类基准,且在编辑非典型主题时更易实现一致性。