Feb, 2023

神经表示中未对齐属性的擦除

TL;DR本文介绍了 AMSAL 算法和它在多个数据集上的测试,其中包括一个 Twitter 数据集和带有各种类型的保护属性的 BiasBench 基准测试。该算法旨在在信息需要被删除,但不是直接与输入示例对齐的情况下,从神经表示中删除信息。