分析深度对话中的有害性:Reddit案例研究
该论文评估了多种最先进的模型,特别关注减少模型对一些少数群体的偏见,提出了一个多任务学习模型以及一系列深度学习模型,并使用特定的指标测试这些身份群体中意料之外的模型偏见。
Sep, 2019
该研究探讨了上下文信息是否影响文本模型对于评论内容的判断,结果发现上下文信息能够强化或减轻评论内容的毒性,但是定量证据表明,加入上下文信息并不能提高文本模型评价评论内容毒性的表现。
Jun, 2020
本文研究了机器学习模型在对包含多种形式的细微虐待语言(如敌意、讽刺和概括等)的不健康在线会话进行分类的应用。结合包含7种细微有毒评论的公共数据集,我们成功地对这些评论进行了分类和判别,并揭示了对于不同种类的不健康评论,其中,敌意评论比其他类型更容易检测。同时,情感分析表明,多数类型的有害评论与轻微负面情绪相关联,其中敌意评论是最具负面情绪的类型。
Jun, 2021
该研究使用真实数据集,通过数据分析和机器学习模型,有效检测在线讨论中有害的LGBTQIA+相关言论,证实大型语言模型在此任务中具有良好性能。
Jun, 2022
研究使用 ChatGPT 与 MTurker注释进行 HOT分类, 结果显示 ChatGPT 的准确率约为 80%,且分类方式比人工注释更一致,但其对“毒性”的分类大于对“仇恨”和“冒犯”的分类。研究结果对于使用生成式 AI 模型监管社交媒体上的大量用户生成内容具有重要意义。
Apr, 2023
本研究介绍了ToxicChat,这是一个基于开源聊天机器人的新型基准,用于揭示现实世界中用户与AI交互所面临的挑战,并对现有毒性数据集训练的模型进行了系统评估,揭示了其在此独特领域中的不足。该工作为进一步构建用户与AI交互的安全健康环境提供了宝贵的资源。
Oct, 2023
本研究通过对Reddit社交媒体平台上的对话进行跨主题和跨语言的毒性分析,收集了来自六种语言、481个社区的150万个评论串,涵盖了文化、政治和新闻等80个主题。我们深入分析了毒性如何在不同社区中在特定主题上呈现出峰值,并观察到某些主题毒性在不同语言中存在一致的增长模式,同时也注意到特定语言社区内存在显著差异。
Apr, 2024
我们研究了真实世界事件对在线讨论中毒性起源和传播的影响,通过收集来自六种不同语言(荷兰语、英语、德语、阿拉伯语、土耳其语和西班牙语)的 Reddit 数据,包含了 15 个重大社会政治事件在 2020 年至 2023 年期间发生时产生的 4.5 百万评论和 31 千篇帖子,我们观察到了不同事件和语言社区中毒性、负面情绪和情感表达的显著变化,显示出毒性是一个复杂的现象,需要进一步研究,并将发布数据和代码供进一步研究使用。
May, 2024
通过系统的调查与综述,我们填补了对有毒模因的内容分析的备受争议的术语和未探索趋势的先前相关研究的空白。我们对118篇新论文进行了调查,分析了158项内容为基础的有毒模因分析工作。我们提出了对模因有毒性类型进行分类的新分类法,并鉴别了模因有毒性的三个内容维度:目标、意图和传达策略。研究还分析了一些关键挑战和最新趋势,如增强的跨模态推理、专家和文化知识的整合、自动毒性解释的需求以及在资源匮乏语言中处理模因有毒性。最后,我们提出了推进有毒模因检测和解析的路径。
Jun, 2024