BriefGPT.xyz
大模型
Ask
alpha
关键词
downstream classifiers
搜索结果 - 4
ACL
谁的偏好?公平偏好的差异及其对利用人类反馈的人工智能公平性的影响
通过从人类反馈中学习,我们考虑在内容审查中公平性的设置,在比较两个评论时,人类反馈被用来确定如何处理涉及不同敏感属性组的评论。我们发现,与注释者的种族、年龄、政治立场、教育水平和 LGBTQ + 身份有关,公平偏好存在显著差异,并且文本中提
→
PDF
25 days ago
PoisonedEncoder: 对对比学习的未标记预训练数据进行污染
本文提出一种数据污染攻击 ——PoisonedEncoder,该攻击通过在无标签的预训练数据中注入精心制作的污染输入,为多目标下游任务构建基于受攻击者选择的中毒编码器的下游分类器,使得这些分类器将受攻击者选择的任意干净输入分类为受攻击者选择
→
PDF
2 years ago
MM
StolenEncoder 自监督学习中的预训练编码器盗窃
本文提出了一种名为 StolenEncoder 的攻击方法,通过该方法可以以比从头开始训练更短的时间和资源窃取目标编码器,本文还探究了三种抵御此攻击的方法。
PDF
2 years ago
BadEncoder: 自监督学习中的预训练编码器后门攻击
本研究研究自监督学习中的后门攻击,提出了 BadEncoder,它将后门注入预训练的图像编码器中,同时保留了下游分类器的准确性。对不同数据集的实验结果表明,这种攻击方法具有高攻击成功率,而常规的防御方法并不能有效防御。
PDF
3 years ago
Prev
Next