Feb, 2024

从差分隐私中减弱语言模型微调的偏见

TL;DR机器学习中公平性和隐私性是两个重要的价值观,通过差分隐私机制来限制个体训练数据对结果模型的影响,但我们发现差分隐私会加剧性别、种族和宗教偏见,而反事实数据增强法可以缓解差分隐私所引发的偏见扩大,因此差分隐私和反事实数据增强法可以同时维护公平性和隐私。