揭示冒充者:领域内检测人类与机器生成的推文
该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述,并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。
Feb, 2023
通过引入一个新的系统 T5LLMCipher,结合预训练的 T5 编码器和 LLM 嵌入子聚类,我们在 9 个不同生成器和领域中评估了我们的方法,并发现与现有方法相比,我们的方法在看不见的生成器和领域中对机器生成的文本的 F1 得分平均提高了 19.6%,正确属性文本的生成器的准确率达到 93.6%。
Jan, 2024
在大语言模型 (LLMs) 时代,我们发现许多现有的假新闻检测器存在显著偏见,更容易将 LLMs 生成的内容标记为假新闻,而常常误将人类撰写的假新闻分类为真实。为了解决这个问题,我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略,从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究,我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”,将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。
Sep, 2023
在 Mastodon 社交媒体平台上,我们使用了 “LLMs Among Us” 实验框架构建了 10 个角色来研究大型语言模型的潜力和威胁,发现参与者只有 42% 的准确率能识别出其他用户的真实性。此外,我们还发现角色的选择对于人的感知影响比主流大型语言模型的选择更大。
Feb, 2024
我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战,这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能,包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD,我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样,涵盖了各种可能性,为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估,基于研究结果,结果主要与句子的序列长度有关。
Nov, 2023
本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法,包括统计、神经网络和预训练模型方法,并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下,我们的方法在子任务 A 单语上获得 86.9%的准确率,在子任务 B 上获得 83.7%的准确率。此外,我们还强调了未来研究中的挑战和重要因素。
Mar, 2024
大语言模型(LLM)的出现具有革命性的影响。然而,像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息,对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题:LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性?通过我们的实证研究,我们发现相比于具有相同语义的人类编写的误导信息,LLM 生成的误导信息对于人类和检测器来说更难以检测,这表明它可能具有更具欺骗性的风格,并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。
Sep, 2023
通过对人类写作文本和基于大型语言模型的生成文本进行比较研究,该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果,同时指出在故事写作方面识别生成文本的困难性,为未来在人工智能文本识别方面提供了启示和研究数据集。
Jul, 2023
通过回答三个研究问题,本研究探讨了利用大型语言模型(LLMs)生成的谣言和虚假信息对目前存在的谣言检测技术的影响,以及通过使用 LLMs 作为强大的谣言防御手段以及针对这一威胁的新方法的可能性。
Sep, 2023