ChatGPT：在社交媒体中检测和区分令人讨厌、攻击性和有毒评论的承诺

Apr, 2023

ChatGPT：在社交媒体中检测和区分令人讨厌、攻击性和有毒评论的承诺

"HOT" ChatGPT: The promise of ChatGPT in detecting and discriminating hateful, offensive, and toxic comments on social media

PDF

Lingyao Li, Lizhou Fan, Shubham Atreja, Libby Hemphill

TL;DR研究使用 ChatGPT 与 MTurker 注释进行 HOT 分类，结果显示 ChatGPT 的准确率约为 80％，且分类方式比人工注释更一致，但其对 “毒性” 的分类大于对 “仇恨” 和 “冒犯” 的分类。研究结果对于使用生成式 AI 模型监管社交媒体上的大量用户生成内容具有重要意义。

Abstract

harmful content is pervasive on social media, poisoning online communities and negatively impacting participation. A common approach to address this issue is to develop detection models that rely on human annotat

harmful content social media generative ai models chatgpt hateful, offensive, and toxic classifications

发现论文，激发创造

ChatGPT 毒性的全面评估

我们评估了 ChatGPT 中的毒性，并发现其毒性取决于提示的不同属性和设置，包括任务、领域、长度和语言，发现创意写作任务的提示可能比其他任务更容易引发有毒反应，德语和葡萄牙语的提示也会使反应的毒性加倍，此外，我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应，希望我们的发现可以指引模型开发者更好地监管这些 AI 系统，并帮助用户避免不良输出。

Nov, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

ChatGPT 在解释隐含的仇恨言论方面是否比人类标注员更优秀？ChatGPT 的潜力和限制

通过设计激励聊天 GPT 生成简明自然语言解释的提示，本文研究了是否可以使用 ChatGPT 提供内含仇恨言论检测的自然语言解释，并通过与人类编写的自然语言解释的比较来评价其质量。我们讨论了 ChatGPT 在隐含性仇恨言论研究中的潜力和局限性。

Feb, 2023

评估 ChatGPT 在多语言和基于表情符号的仇恨言论检测中的性能

对 ChatGPT 语言模型进行 11 种语言中的仇恨言论检测和 emoji 影响分析，揭示模型的缺陷和需要进行进一步研究和改进的必要性。

May, 2023

以火攻火：ChatGPT 能否检测生成的人工智能文本？

研究中探讨了 ChatGPT 作为 AI 生成文本检测器的性能，通过评估它在人工编写与 AI 生成文本检测任务上的零样本表现，并对公开可用的数据集进行实验。结果发现 ChatGPT 以及类似的大型语言模型可在自动化检测流程中发挥作用，通过专注于解决问题的一个特定方面并从该解决方案派生出其他方面的解决方案。

Aug, 2023

不予理睬：对话生成模型在攻击性场景中的立场分析

通过对 Reddit 对话情景下的回应训练，研究对话模型响应中的攻击性语言，实验结果表明神经网络对话模型容易学习产生攻击性的回应，使用可控文本生成模型可以减少攻击性回复产生的数量。

Aug, 2021

HC3 Plus: 一个语义不变的人类 ChatGPT 对比语料库

ChatGPT 的 AI 生成内容检测问题，主要集中在语义不变任务，以往的数据集忽视了这方面的任务，我们提出了一个更全面的数据集，并通过大量任务指令微调建立了更强大的检测系统，实验证明我们的检测器优于之前的最先进 RoBERTa-based 检测器。

Sep, 2023

ChatGPT 中的毒性：分析个性化语言模型

本研究系统评估了 ChatGPT 这个常用的基于对话的大型语言模型中的亵渎问题，发现为 ChatGPT 分配一个假想的人物角色（如拳击手穆罕默德・阿里）会显著增加生成结果的亵渎程度，其中涉及不正确的刻板印象、有害的对话和伤人的观点，这可能损害该假想角色的名誉并对无意中接触该系统的用户造成伤害，并且还存在特定实体（例如某些种族）比其他实体被定位更多的有关问题，这反映了模型内在的歧视性偏见。研究希望激发广泛的人工智能社区重新思考当前安全防护措施的功效，并开发出更好的技术，以实现强大、安全和值信赖任的 AI 系统。

Apr, 2023

基于社交媒体的自杀风险评估研究：模型性能、潜力和局限性的定量评估

本文基于社交媒体帖子利用马里兰大学 Reddit 自杀数据集，提出了一种对交互式 ChatGPT 模型进行自杀性评估的量化评估框架，并通过零样本和少样本实验对 ChatGPT 在此任务上的性能进行了技术评估，并将其结果与两个经过微调的基于变压器的模型的结果进行比较，研究不同温度参数对 ChatGPT 响应生成的影响，并根据 ChatGPT 的不确定性率讨论最佳温度。我们的结果表明，虽然 ChatGPT 在这项任务中获得了相当的准确性，但对人工注释数据集进行微调的基于变压器的模型表现出更优异的性能。此外，我们的分析揭示了调整 ChatGPT 的超参数如何提高其协助心理健康专业人士完成此关键任务的能力。

Jun, 2023

区分 ChatGPT 生成的和人工撰写的医学文本

本研究旨在通过构建数据集、分析文本语言特征和设计机器学习方法，从伦理角度研究医学应用场景下人工智能生成文本的可靠性及误差。结果显示，ChatGPT 生成的医学文本普遍存在可读性高、专业术语泛化等问题，而利用 BERT 模型检测 ChatGPT 生成的医学文本效果显著。

Apr, 2023