BERT-Beta: 一种主动概率文本审查方法

EMNLPSep, 2021

BERT-Beta: 一种主动概率文本审查方法

BERT-Beta: A Proactive Probabilistic Approach to Text Moderation

Fei Tan, Yifan Hu, Kevin Yen, Changwei Hu

TL;DR本文提出了一种基于 “文本毒性倾向” 的概念，通过引入预测性评估来增强反应式评论，使用 Beta regression 模型进行概率建模并提出解释方法以提高文本审查的准确性和可解释性，同时还提出了一种扩展线性模型的手段以提高预测精度。

Abstract

text moderation for user generated content, which helps to promote healthy interaction among users, has been widely studied and many machine learning models have been proposed. In this work, we explore an alternative perspective by augmenting reactive reviews with →

text moderation proactive forecasting text toxicity propensity beta regression explanation method

发现论文，激发创造

像教练，像机器人？算法内容审查中的偏见传承

通过在不同的人口子集上进行注释的文本上训练分类器来衡量算法内容调节系统的规范偏见。

Jul, 2017

通过阈值优化从多个子任务中做出可靠的决策：野外内容的审核

该研究利用机器学习模型进行社交媒体内容审核，提出了一种优化阈值的方法，以实现自动审核，这种方法在成本效率和内容审核方面表现更好。

Aug, 2022

深度主动学习中利用 Beta 评分的多标签文本分类

本研究介绍了一种新颖的深度主动学习策略，利用期望损失减少框架中的 Beta 系列合适评分规则来解决自然语言处理范围内多标签文本分类的挑战。通过计算预期分数的增加量，并将其转化为样本向量表示，该方法在各种架构和数据集情景中通常胜过传统的获取技术，在多标签文本分类中表现出令人鼓舞的结果。

Jan, 2024

MTTM：面向文本内容审核软件的变态测试

使用基于变形的测试框架对文本内容审核软件进行了评估，结果显示该框架可以评估商业内容审核软件和基于机器学习的算法，并降低了先前算法无法有效处理含有恶意内容的文本的问题。

Feb, 2023

追索索偿：与生成语言模型对话

通过为毒性过滤设置动态阈值，我们提供了一种新的机制，使用户能够实现他们希望的预测，从而增加了与基线系统的交互中的机构性。一项初步研究支持我们提出的救济机制的潜力，表明与固定阈值毒性过滤模型输出相比，可用性有所改善。未来的工作应该探讨毒性评分、模型可控性、用户机构性和语言重建过程之间的交叉点，特别是关于当与生成性语言模型互动时，许多社区遇到的偏见。

Mar, 2024

通过人为扰动在线评估内容审核机器学习模型

本文提出了一种包含人为写作的扰动，用于评估社交媒体上毒性发言检测模型的效果，并测试了该测试集在深度学习　(BERT 和 RoBERTa) 和黑盒 API（如 Perspective API）上的表现，结果表明带有真实人为扰动的对抗攻击仍然有效。

Mar, 2023

贝叶斯主题回归用于因果推断

本文介绍了 Bayesian Topic Regression 模型，该模型使用文本和数字信息以建模结果变量，并允许估计离散和连续处理效应，同时结合了有监督的表示学习和贝叶斯回归框架，以处理文本数据和数字混淆因素，证明了本文方法在合成和半合成数据集上降低偏差，并在两个真实数据集上展示了具体效果。

Sep, 2021

在线毒性检测的机器学习套件

本文使用数据科学的现代工具将原始文本转化成关键特征，并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话，通过系统评估 62 个分类器，从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中，一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法，其中基于树的算法提供最透明易懂的规则，并排列特征的预测贡献。

Oct, 2018

通过主动学习提高文本分类中的概率模型

提出了一种将概率模型和主动学习结合起来的新算法，用于降低自动化文本分类的标注成本，实现对未标注数据和难分类文档的集中标注，性能可与最先进的方法相媲美，使用原有标注数据比最近发布的两篇研究中仅用一小部分标注数据得出的结论相同，并提供了 activeText 软件。

Feb, 2022

新闻室的混合式调节：为内容调节员推荐精选文章

本文提出一种基于分类概率排名的推荐系统，能够结合用户和文本内容的特征，帮助和支持在线新闻机构评论区的内容管理者在选择精选评论时进行决策。通过使用文本特征和用户内容特征，该系统在测试集上获得了 F1-score 为 0.44 的最佳分类，同时在一组大型验证文章上获得了 NDCG@5 均值的最优值为 0.87，最后，根据内容管理者的专业评估，该系统在精选评论上得分为 0.83，并得出结论：添加文本特征可获得最佳得分，尽管精选评论仍然有些主观性，但该系统的推荐评论仍然很适合大多数内容管理者。

Jul, 2023