Jun, 2023

通过训练概念影响来理解不公平

TL;DR通过预定义的概念进行反事实干预,通过影响函数计算培训样本对模型的不公平的影响,帮助实践者理解观察到的不公平现象并修复其培训数据,从而实现检测错误标记、修复不平衡表示、检测针对公平性的污染攻击等其他应用。