Mar, 2024

等等,全都是令牌噪音?一直以来都是:使用 Shapley 值解释 LLM 行为

TL;DR利用合作博弈理论中的 Shapley 值独特方法解读大型语言模型的行为和量化每个提示组件对模型输出的相对贡献,揭示了被称为 “标记噪声” 效应的现象,该现象引发对大型语言模型在人类行为模拟中获得见解的健壮性和普适性的担忧。该研究强调在依赖大型语言模型作为研究对象替代品之前,需要更加细致地了解驱动大型语言模型响应的因素,并强调研究人员在报告结果时受到特定提示模板的条件限制,并要谨慎地在人类行为和大型语言模型之间绘制并行之间的类比。