细调预训练语言模型用于检测游戏中的垃圾言论

Mar, 2024

细调预训练语言模型用于检测游戏中的垃圾言论

Fine-Tuning Pre-trained Language Models to Detect In-Game Trash Talks

Daniel Fesalbon, Arvin De La Cruz, Marvin Mallari, Nelson Rodelas

TL;DR研究探讨了在线游戏中存在的有害行为和恶劣沟通问题，特别关注在线仇恨言论和毒性对玩家游戏表现和整体幸福感的影响。研究使用预训练语言模型来分类或检测游戏中的恶意言论和有毒信息，并评估了 BERT 和 GPT 语言模型在检测游戏内聊天中毒性的性能。通过公开可用的 API，收集、处理、审查和标注了 DOTA 2 游戏匹配中的游戏聊天数据，并使用 BERT（基于小写）模型、BERT（基于大写）模型和 GPT-3 模型进行了训练和测试。根据这三种模型的最新性能，本研究得出了预训练语言模型在解决在线仇恨言论和游戏中恶意侮辱性言论问题方面的潜力。

Abstract

Common problems in playing online mobile and computer games were related to toxic behavior and abusive communication among players. Based on different reports and studies, the study also discusses the impact of o

online games toxic behavior abusive communication hate speech language models

发现论文，激发创造

游戏中毒性语言检测：共享任务和注意残差

本文提出了一个针对游戏内毒性语言检测的模型 / 框架，解决了由于游戏内聊天过短导致毒性检测困难的问题，并介绍了该模型的建立过程及数据源。

Nov, 2022

使用 BERT 的游戏内聊天毒性检测程序 ToxBuster

介绍了 ToxBuster ，一种简单且可扩展的模型，用于检测在线空间中的毒性。该模型使用彩虹六围攻和荣耀战荣耀的游戏聊天记录数据进行训练，并且对不同类型的毒性进行了仔细的注释。相较于现有技术，ToxBuster 在精确性和召回率上均表现出较大提升，达到了 82.95% 和 83.56%。该模型使用了过去的聊天历史和元数据，并研究了实时和游戏后的监管以及模型从一个游戏传输到另一个游戏的可行性。

May, 2023

ChatGPT 毒性的全面评估

我们评估了 ChatGPT 中的毒性，并发现其毒性取决于提示的不同属性和设置，包括任务、领域、长度和语言，发现创意写作任务的提示可能比其他任务更容易引发有毒反应，德语和葡萄牙语的提示也会使反应的毒性加倍，此外，我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应，希望我们的发现可以指引模型开发者更好地监管这些 AI 系统，并帮助用户避免不良输出。

Nov, 2023

使用深度学习方法确定有毒评论和意外模型偏差最小化

使用 BERT 模型，通过对权重损失的加权处理，检测有毒评论并减少对包括种族、性别、宗教在内的身份特征的意外偏见。与传统的逻辑回归模型相比，经过微调的 BERT 模型在分类和偏见减少方面表现得更好，具有 89% 的准确率。

Nov, 2023

诊断和去偏 GPT2 中基于语料库的政治偏见和侮辱

研究探讨了诊断 - 去偏见方法在减少侮辱和政治偏见等两种附加偏见方面的效力，为调查人工智能与人类互动的道德和社会影响不断努力做出贡献。

Nov, 2023

基于机器学习和语义分析的网络游戏聊天室霸凌检测

本文介绍了一种自动数据收集系统，用于从在线多人游戏《坦克世界》中连续收集游戏聊天数据，并结合在线数据服务的其他信息。并提出了一种评分方案，用于基于当前研究的网络欺凌识别。该研究使用简单的特征检测，通过 SQL 数据库查询对收集的数据进行了分类，结果显示：虽然 SQL 分类很有用，但基于更复杂的在线情感分析服务的分类则不尽人意。最后，研究结果揭示出在游戏中，可以通过冻结玩家在游戏聊天功能中的通信能力，显著减少网络欺凌。同时，新手玩家很少进行网络欺凌，这意味着这些行为可能来自其他玩家的学习。

Jul, 2019

只需一次提示：大型语言模型的提示学习能力对抗有害内容的能力探究

使用大型语言模型和提示学习方法解决有毒内容问题，特别关注有毒内容的分类、有毒区域检测和解毒化三个任务，通过广泛评估发现，与针对特定任务训练的模型相比，具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能，对于解毒化任务，提示学习方法成功降低了平均有毒度，同时保持语义含义。

Aug, 2023

利用大型语言模型自动检测在线文本中的问题赌博迹象

使用德国一个主要赌博讨论论坛上的数据，通过对论坛帖子进行 BERT 模型的调整，训练结果显示，通过基于诊断标准进行手工注释生成高质量训练材料，可以在小数据集上可靠地使用 BERT 模型检测在线交流数据中的问题赌博迹象，此类计算方法可能有助于检测在线用户中问题赌博患病率的变化。

Nov, 2023

评估语言模型中神经毒性退化的 RealToxicityPrompts

该研究通过创建 RealToxicityPrompts 数据集，使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力，指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。

Sep, 2020

针对游戏内聊天的实时上下文有害内容检测

ToxBuster 是一个简单且可伸缩的模型，通过包含聊天历史和元数据，可在实时环境中可靠地检测毒性内容，适用于社交媒体和游戏平台，在流行的多人游戏中性能稳定，并在聊天举报玩家的精确度达到 90% 的情况下成功标记大约 82.1% 的玩家以及主动监管未报道的约 6% 的有毒玩家。

Oct, 2023