Aug, 2024

促进大型语言模型中的平等:基于贝叶斯理论识别和缓解隐性偏见

TL;DR本研究解决了大型语言模型中隐性偏见的问题,提出了一种基于贝叶斯理论的创新框架BTBR用于偏见去除。关键发现表明,通过有效的模型编辑技术,BTBR能够有效识别并消除LLMs在训练过程中吸收的偏见,从而促进语言模型的公平性。