May, 2024

MBIAS: 大型语言模型中减轻偏见并保留上下文

TL;DR为了保证 Large Language Models(LLMs)的安全性,同时保持其上下文准确性,提出了 MBIAS 框架,通过在自定义数据集上进行指令微调,优化 LLMs 生成中的偏见和毒性问题,实验结果表明,MBIAS 能够在保持关键信息的同时,将总体偏见和毒性减少 30% 以上,且在各个人口统计学数据上的测试中,偏见和毒性减少超过 90%。