May, 2024

UniBias:通过内部注意力和 FFN 调整揭示和减轻 LLM 的偏见

TL;DR通过研究语言模型中前馈神经网络和注意力头的作用,我们识别出导致偏见的组件,并提出了一种名为 UniBias 的仅用于推理的方法,该方法能够有效地识别和消除偏见的前馈神经网络向量和注意力头,大量实验验证了 UniBias 显著提高了模型的性能和减轻了模型的敏感性。