针对游戏内聊天的实时上下文有害内容检测
介绍了 ToxBuster ,一种简单且可扩展的模型,用于检测在线空间中的毒性。该模型使用彩虹六围攻和荣耀战荣耀的游戏聊天记录数据进行训练,并且对不同类型的毒性进行了仔细的注释。相较于现有技术,ToxBuster 在精确性和召回率上均表现出较大提升,达到了 82.95% 和 83.56%。该模型使用了过去的聊天历史和元数据,并研究了实时和游戏后的监管以及模型从一个游戏传输到另一个游戏的可行性。
May, 2023
本研究介绍了 ToxicChat,这是一个基于开源聊天机器人的新型基准,用于揭示现实世界中用户与 AI 交互所面临的挑战,并对现有毒性数据集训练的模型进行了系统评估,揭示了其在此独特领域中的不足。该工作为进一步构建用户与 AI 交互的安全健康环境提供了宝贵的资源。
Oct, 2023
研究探讨了在线游戏中存在的有害行为和恶劣沟通问题,特别关注在线仇恨言论和毒性对玩家游戏表现和整体幸福感的影响。研究使用预训练语言模型来分类或检测游戏中的恶意言论和有毒信息,并评估了 BERT 和 GPT 语言模型在检测游戏内聊天中毒性的性能。通过公开可用的 API,收集、处理、审查和标注了 DOTA 2 游戏匹配中的游戏聊天数据,并使用 BERT(基于小写)模型、BERT(基于大写)模型和 GPT-3 模型进行了训练和测试。根据这三种模型的最新性能,本研究得出了预训练语言模型在解决在线仇恨言论和游戏中恶意侮辱性言论问题方面的潜力。
Mar, 2024
本文展示了公共的聊天机器人模型容易提供有毒反应,并出现了一些非有毒查询可以触发有毒反应。通过实验,展示了一个攻击(ToxicBuddy)的有效性和三种防御机制对其的影响。该研究强调了保障聊天机器人的安全性需要更多的计算机安全和在线安全社区的研究,并展示了 ToxicBuddy 可用作审计工具。
Sep, 2022
本文介绍了一种自动数据收集系统,用于从在线多人游戏《坦克世界》中连续收集游戏聊天数据,并结合在线数据服务的其他信息。并提出了一种评分方案,用于基于当前研究的网络欺凌识别。该研究使用简单的特征检测,通过 SQL 数据库查询对收集的数据进行了分类,结果显示:虽然 SQL 分类很有用,但基于更复杂的在线情感分析服务的分类则不尽人意。最后,研究结果揭示出在游戏中,可以通过冻结玩家在游戏聊天功能中的通信能力,显著减少网络欺凌。同时,新手玩家很少进行网络欺凌,这意味着这些行为可能来自其他玩家的学习。
Jul, 2019
本文描述了 'Moj Masti' 团队提出的系统,使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据,重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务,最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能,并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能,从而将我们放在了排行榜的第一位。
Jan, 2022
本文使用数据科学的现代工具将原始文本转化成关键特征,并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话,通过系统评估 62 个分类器,从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中,一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法,其中基于树的算法提供最透明易懂的规则,并排列特征的预测贡献。
Oct, 2018
本研究旨在通过使用心理学和社会理论来定义网络上的毒性,提出了一种多维度的网络毒性检测方法,结合显式知识和统计学习算法,以解决网络毒性检测中的歧义和复杂度问题。
Apr, 2021
该研究提出了一种基于监督学习的方法来预测有毒行为的众包决策,使用了超过 1000 万用户报告的数据,展示了在跨地区数据上的良好性能,预计将带来节约成本和保护受害者的实际影响。
Apr, 2014