Ex Machina:大规模个人攻击事件分析
通过在现有的精细硬性注意力解释结构上添加对抗性层,可以提高模型对神经文本分类器决策进行高召回解释的能力,并更好地检测社交媒体评论中的个人攻击。
Sep, 2018
本文针对恶意众包论坛在信息传播中的误导性日益严重的问题,使用一种新的攻击方式 —— 基于深度学习语言模型,自动生成伪造商品和服务的在线评论,比传统人工雇佣方式成本更低、攻击规模更大,且有机制可以逃避检测,通过结合 Yelp 评论网站的实例,研究提出相应的防范措施。
Aug, 2017
本文首次报道了人权活动家和机器学习家之间的合作,利用众包研究了 Twitter 上针对女性的在线虐待。通过分析来承认滥用感知的变异性,为其释放给社区研究工作做好准备。在社会影响方面,这项研究为旨在提高公众和决策者意识以及提高社交媒体公司期望标准的媒体活动提供了技术支持。
Jan, 2019
该研究对社交媒体平台上的机器学习型进攻性语言分类器的鲁棒性做出了系统的分析,并证明了具有贪婪和注意力机制的词汇选择和上下文感知嵌入的攻击可将这些分类器的准确性降低 50% 以上,同时还能保持修改后文本的可读性和含义。
Mar, 2022
本文为对文本分类器对抗攻击的取证研究提供了第一步,通过分析对抗文本来确定其创建方法,提供了一个广泛的攻击检测和标记数据集,使用该数据集开发和基准测试攻击识别的多个分类器,并展示了三类特征对这些任务的有效性。
Jan, 2022
本文从控制理论角度研究了在线学习中攻击者可以利用教师 - 学生设置扰动数据标签来操纵学习动态的情境,通过考虑不同的攻击策略并获取简单线性学习者的稳态的分析结果得出,当攻击强度超过关键阈值时,学习者准确度会出现不连续转变的结论,并利用真实数据对具有复杂架构的学习器进行了实证攻击,证实了理论分析中的洞见,表明贪婪攻击特别是在数据流程以小批量形式时可以非常有效。
May, 2023
本文提出了一种名为 Adv4SG 的新型文本领域对抗性攻击方法,旨在通过一系列词汇扰动来保护社交媒体上的个人属性隐私,有效地降低基于自然语言处理技术的属性推断攻击的影响。
Jun, 2023
该研究旨在帮助家长教师会成员更有效地对网络论坛和博客的恶意内容进行监测,以实际应用机器学习等技术进行网络欺凌入口的分类和识别。通过对不同学校的网络平台数据进行的研究,该研究成功训练了机器学习分类器,最终分类准确率达到 88.2% 的平衡 F 分数。
Mar, 2022