通过考察自动检测和审查系统的最新发展以及训练数据集的成熟度,探讨了作者意图对于内容审查系统的重要性,并提出了改善自动检测和审查系统以符合道德和政策观念的策略性变革。
May, 2024
该论文提出了一种基于 “Gab” 数据集的在线滥用行为检测和评估方法,该方法可以确定滥用性内容的存在性,严重性和目标,并可达到 80%的存在性检测准确率,82%的目标检测准确率以及 65%的滥用严重性预测准确率
Sep, 2020
本文提出 PolicyIE 数据集,对比两种基准神经方法处理语义意图分类和信息填充。结果表明序列到序列(Seq2Seq)模型在信息填充任务上优于序列标注方法。
Jan, 2021
本文提出了一种两步法的方法,使用现有的包含多种任务相关的虐待性语言检测数据集进行多任务学习,再进行少量的适应性训练以针对新的标签集或语言。实验结果表明这种方法可以提高模型的性能,并且可以在不同语言中实现跨语言识别。
May, 2023
该研究在 NLP 领域探讨了如何构建一个统一的框架,用于解决识别恶意内容(包括仇恨言论,毒性评论,网络欺凌等)的问题,并强调了伦理问题的重要性。提出了一个基于 “设计伦理” 的新框架,通过两个步骤来区分个人信息相对的非个人信息、在每个类别中进行比较注释以确定滥用程度。
Oct, 2020
此研究使用深度学习技术基于 Twitter 数据,对社交媒体中的仇恨言论、辱骂言论、性别歧视、种族主义与欺凌行为开展综合研究,并提出了一种基于元数据和文本的检测方法,效果优于现有的检测方法。
Feb, 2018
本文综述了当前基于自然语言处理(NLP)的滥用检测方法,包括数据集、计算方法、优缺点、挑战和解决方案,并提出伦理和可解释性指南。
Aug, 2019
本研究设计了一个可以为未知单词组合嵌入的模型,与现有的自然语言处理技术相比,本方法可以更好地检测社交媒体上的滥用言论,数据集包含 Twitter 和 Wikipedia talk page。
Sep, 2018
该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响,着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题,并提供解决这三个问题的未来研究建议。
May, 2022
本研究提出了一种新颖的基于监督学习的方法,它可以学习生成针对不同槽类型的特征以提高准确性,并提供了首个能够解释基于联合 NLU 模型的槽填充决策的方法,从而保证了模型的可解释性。实验结果表明,该方法在两个广泛使用的数据集上均取得了准确性改进,并提供了有关独占式槽解释性的详细分析。
Oct, 2022