Jul, 2024

LoFTI: 印度本土化和真实性迁移

TL;DR通过对大规模网络数据集进行训练,大型语言模型(LLMs)可以编码广泛的世界知识。然而,这些数据集通常存在对英语为母语的西方国家的地理偏见,导致LLMs对需要本地化回答的查询产生有偏见或虚构的响应。本研究引入了一种名为LoFTI(Localization and Factuality Transfer to Indian Locales)的新基准,用于评估LLM的本地化和事实转移能力。LoFTI包含关于源地点和目标地点实体的事实陈述;源地点遍布全球,而目标地点都位于印度,且具有不同程度的超本地性(国家,州,城市)。这些实体涵盖了各种各样的类别。我们使用LoFTI评估Mixtral、GPT-4和另外两种适用于本地化事实转移任务的基于Mixtral的方法。我们证明LoFTI是一个高质量的评估基准,并且所有模型,包括GPT-4,在不同级别的超本地化中产生了偏斜的结果。