Jan, 2024

Calpric: 集众包和主动学习的隐私政策全面细粒度标注

TL;DRCalpric 使用自动文本选择和分割、主动学习和众包注释器相结合的方法,以低成本生成大规模、均衡的隐私政策训练集,使得不具备专业训练的注释者能够与法律学生等经过训练的注释者相竞争,降低注释成本,并通过少量训练样本高效覆盖输入空间,进一步降低成本并提高数据集的类别平衡和数据类别详细度。众包过程使得 Calpric 以大约 0.92-1.71 美元每个标注文本段的成本获得可信赖的标注数据集,其中包含了 16K 个隐私政策文本段,涵盖了 9 个数据类别,并具有平衡的正负样本。