BERT-Beta: 一种主动概率文本审查方法
该研究利用机器学习模型进行社交媒体内容审核,提出了一种优化阈值的方法,以实现自动审核,这种方法在成本效率和内容审核方面表现更好。
Aug, 2022
本研究介绍了一种新颖的深度主动学习策略,利用期望损失减少框架中的 Beta 系列合适评分规则来解决自然语言处理范围内多标签文本分类的挑战。通过计算预期分数的增加量,并将其转化为样本向量表示,该方法在各种架构和数据集情景中通常胜过传统的获取技术,在多标签文本分类中表现出令人鼓舞的结果。
Jan, 2024
使用基于变形的测试框架对文本内容审核软件进行了评估,结果显示该框架可以评估商业内容审核软件和基于机器学习的算法,并降低了先前算法无法有效处理含有恶意内容的文本的问题。
Feb, 2023
通过为毒性过滤设置动态阈值,我们提供了一种新的机制,使用户能够实现他们希望的预测,从而增加了与基线系统的交互中的机构性。一项初步研究支持我们提出的救济机制的潜力,表明与固定阈值毒性过滤模型输出相比,可用性有所改善。未来的工作应该探讨毒性评分、模型可控性、用户机构性和语言重建过程之间的交叉点,特别是关于当与生成性语言模型互动时,许多社区遇到的偏见。
Mar, 2024
本文提出了一种包含人为写作的扰动,用于评估社交媒体上毒性发言检测模型的效果,并测试了该测试集在深度学习 (BERT 和 RoBERTa) 和黑盒 API(如 Perspective API)上的表现,结果表明带有真实人为扰动的对抗攻击仍然有效。
Mar, 2023
本文介绍了 Bayesian Topic Regression 模型,该模型使用文本和数字信息以建模结果变量,并允许估计离散和连续处理效应,同时结合了有监督的表示学习和贝叶斯回归框架,以处理文本数据和数字混淆因素,证明了本文方法在合成和半合成数据集上降低偏差,并在两个真实数据集上展示了具体效果。
Sep, 2021
本文使用数据科学的现代工具将原始文本转化成关键特征,并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话,通过系统评估 62 个分类器,从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中,一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法,其中基于树的算法提供最透明易懂的规则,并排列特征的预测贡献。
Oct, 2018
提出了一种将概率模型和主动学习结合起来的新算法,用于降低自动化文本分类的标注成本,实现对未标注数据和难分类文档的集中标注,性能可与最先进的方法相媲美,使用原有标注数据比最近发布的两篇研究中仅用一小部分标注数据得出的结论相同,并提供了 activeText 软件。
Feb, 2022
本文提出一种基于分类概率排名的推荐系统,能够结合用户和文本内容的特征,帮助和支持在线新闻机构评论区的内容管理者在选择精选评论时进行决策。通过使用文本特征和用户内容特征,该系统在测试集上获得了 F1-score 为 0.44 的最佳分类,同时在一组大型验证文章上获得了 NDCG@5 均值的最优值为 0.87,最后,根据内容管理者的专业评估,该系统在精选评论上得分为 0.83,并得出结论:添加文本特征可获得最佳得分,尽管精选评论仍然有些主观性,但该系统的推荐评论仍然很适合大多数内容管理者。
Jul, 2023