ToxCCIn: 毒性内容分类与解释能力
该论文描述了 Cisco 团队提出的用于发现英文文本中的有毒段落的系统,该系统主要采用了序列标注和依赖解析方法,并提供了其结果和模型表现的详细分析。
May, 2021
通过使用深度学习解释技术,本研究开发了一个可视化交互及可解释的工具 ToxVis,通过细分隐性仇恨言论、明显性仇恨言论、非恶意内容三个类别,对在线暴恐言论进行分类,为内容审查提供了一个有价值的手段。
Mar, 2023
利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型,研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息,并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%),而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%);此外,提供了大型语言模型无法对决策进行分类和解释的错误案例分类,这些薄弱点自动构成这些模型的越狱提示,需要研发产业规模的安全技术来增强模型对抗此类提示。
Oct, 2023
本文描述了 'Moj Masti' 团队提出的系统,使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据,重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务,最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能,并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能,从而将我们放在了排行榜的第一位。
Jan, 2022
本文比较评估了使用 transformers 和传统机器学习模型在 Jigsaw 最近发布的毒性严重度测量数据集上的表现,并通过可解释性分析展示了模型预测中的问题。
Jun, 2022
利用语言模型为隐藏的仇恨帖子生成解释是一个活跃的研究领域,解释的目的是明确潜在的刻板印象并帮助内容管理员。研究通常结合前 k 个相关的知识图谱 (KG) 元组来提供世界知识并改善标准指标的性能,但我们的研究提出了冲突的证据,认为 KG 元组的质量在生成隐含解释方面的作用不明确。因此,将外部毒性信号纳入的简化模型优于 KG 融合模型。在 SBIC(LatentHatred)数据集上,我们观察到相当的性能表现,BLEU、ROUGE-L 和 BERTScore 的性能变化分别为 + 0.44 (+0.49)、+1.83 (-1.56) 和 - 4.59 (+0.77)。进一步的人工评估和错误分析表明,我们提出的设置比零样本 GPT-3.5 产生了更精确的解释,突显了任务的复杂性。
Jun, 2024
本文使用数据科学的现代工具将原始文本转化成关键特征,并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话,通过系统评估 62 个分类器,从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中,一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法,其中基于树的算法提供最透明易懂的规则,并排列特征的预测贡献。
Oct, 2018
使用大型语言模型和提示学习方法解决有毒内容问题,特别关注有毒内容的分类、有毒区域检测和解毒化三个任务,通过广泛评估发现,与针对特定任务训练的模型相比,具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能,对于解毒化任务,提示学习方法成功降低了平均有毒度,同时保持语义含义。
Aug, 2023