May, 2023

通过大型语言模型查询学习 Horn 包络

TL;DR该研究通过学习 Horn 理论的经典算法,提出了一种从训练好的神经网络中提取知识的方法。通过实验该方法在事先训练好的语言模型中提取规则,揭示了职业基础性别偏见。