欺骗 Google 旨在检测有害评论的透视 API

Feb, 2017

欺骗 Google 旨在检测有害评论的透视 API

Deceiving Google's Perspective API Built for Detecting Toxic Comments

Hossein Hosseini, Sreeram Kannan, Baosen Zhang, Radha Poovendran

TL;DR本文提出了一种基于对抗样例的攻击方法，针对 Google 和 Jigsaw 的机器学习项目 Perspective 中的有害语言检测系统，通过对高毒性短语的微小修改降低系统对其的有害等级，揭示了这类攻击方法的危害性和有害检测系统的可靠性问题。

Abstract

social media platforms provide an environment where people can freely engage in discussions. Unfortunately, they also enable several problems, such as online harassment. Recently, Google and Jigsaw started a proj

social media toxic detection machine learning adversarial examples online harassment

发现论文，激发创造

临界视角：透视 API 中存在的陷阱的基准

本文讨论如何对互联网内容中的 “有害” 语言进行检测，重点介绍了来自 Jigsaw 的最新分数评估工具 PERSPECTIVE，以及我们提出的新基准 SASS，并探讨了 PERSPECTIVE 在 SASS 上表现不足的问题。本文的研究表明，对于已经应用于有害性检测的工具的假设进行质疑十分重要，以预测和防止任何不公平的伤害。

Jan, 2023

反犹太主义有多毒？自动化评分反犹在线内容的潜力和局限

使用手动注释的德语数据集，这篇论文研究了 Google 和 Jigsaw 的 Perspective API 在检测反犹太主义在线内容方面的潜力和局限性，并发现它在基本水平上能够识别反犹内容为有毒，但对于隐晦形式的反犹主义和批评立场的文本显示出严重弱点，而且通过简单的文本改动，可以大幅降低 API 分数，从而相对容易绕过基于该服务的内容审查。

Oct, 2023

为多元视角设计有害内容分类

本研究调查了 17280 名互联网用户对什么构成毒性内容的期望不同，发现那些历史上处于骚扰风险中的群体更可能将 Reddit、Twitter 或 4chan 上的随机评论标记为有毒，而那些亲身经历过骚扰的人也更可能这样做。基于我们的发现，我们展示了目前的一款面向所有用户的毒性分类算法 Perspective API，如何通过个性化模型调整平均提高 86％的准确性。最终，我们强调当前的缺陷和新的设计方向，以提高毒性内容分类器的公平性和效果。

Jun, 2021

一个新一代的 Perspective API: 高效多语种基于字符级别的 Transformer

本文介绍了 Google Jigsaw 的 Next-Gen Perspective API，它基于单个多语言无标记 Charformer 模型，可以应用于各种语言、领域和任务，展示了在多语言有毒评论分类基准测试中的广泛实验和评估结果，证明了该方法优于强基线，最后还介绍了如何部署到生产环境。

Feb, 2022

哪种更有毒？来自 Jigsaw 对有毒评论的严重程度评估发现

本文比较评估了使用 transformers 和传统机器学习模型在 Jigsaw 最近发布的毒性严重度测量数据集上的表现，并通过可解释性分析展示了模型预测中的问题。

Jun, 2022

仇恨言论检测中的角度评分统计分析

本文研究了如何使用高级特征来避免数据偏差，并统计分析了不同仇恨言论数据集的角度得分，最终证明了在其他仇恨言论数据集上测试时，过采样角度得分可以显著提高泛化性能。

Jun, 2021

在线毒性检测的机器学习套件

本文使用数据科学的现代工具将原始文本转化成关键特征，并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话，通过系统评估 62 个分类器，从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中，一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法，其中基于树的算法提供最透明易懂的规则，并排列特征的预测贡献。

Oct, 2018

从网络评论的毒性到美国新闻的不文明：谨慎行事

通过对美国新闻的礼貌性手动标注的语料库，测试 Jigsaw Perspective API 是否能够检测到不礼貌的程度，结果表明，Perspective 等模型无法很好地分析新闻中的不礼貌性，需要开发去除新闻中经常提到的词之间的虚假相关性的方法，这样才能更好地解决新闻中的不良言行问题。

Feb, 2021

谁的观点更重要？透视感知模型识别仇恨言论检测中的受害者观点

本研究通过多角度标注刻画线上辱骂现象，采用可感知群体视角的深度学习模型，提出构建多个黄金标准资源，最终在集成后能有效提高现有监督分类器的准确性。

Jun, 2021

使用机器学习模型对社交媒体毒性评论进行分类

研究讨论了社交媒体平台上存在的有害评论问题，提出使用 Lstm-cnn 模型构建分类器，以高精度区分有毒和无毒评论，并帮助组织更好地检查评论区的有害性。

Apr, 2023