ACLJun, 2023

功能交互揭示语言模型中的语言结构

TL;DR本文探讨了关于特征归因方法中的特征交互的问题,并提出了一种灰盒子方法,该方法能够更准确地反映目标模型的内部工作方式。通过在形式语言分类任务上训练模型,并针对性地选择特定的配置,本文展示了一些方法能够揭示模型所学的语法规则,并在对语言模型进行案例研究的基础上,提供了新的关于语言结构的见解。