Apr, 2024

生成人工智能的公平性的正式规范、评估和强制执行

TL;DR生成式人工智能越来越多地生成类似于人类输出的内容,从文本到图像等,增加了强化或加剧社会偏见和不平等的风险。我们在此正式刻画生成式人工智能的公平性概念,作为监测和强制公平性的基础。我们利用无限词的概念定义了两个层面的公平性。第一个层面是对生成序列展示的公平性,仅在输出上进行评估,而对提示 / 模型不关心。第二个层面是生成式人工智能模型的固有公平性,要求在输入提示中是中立的情况下也能表现出公平性,即不明确指示生成式人工智能产生特定类型的输出。我们还研究了相对交叉公平性以应对考虑多个类别时公平性的组合爆炸和懒惰公平性强制。我们实施的规范监测和强制工具在测试多个生成式人工智能模型时显示出有趣的结果。