RoFT: 一种用于评估机器生成文本的人类检测工具
本文研究了如何使用最先进的神经语言模型使人工创作的文本过渡为文本生成,并且展示了该任务上的众议员的技能差异。通过比较多种变量的影响,我们收集了 RoFT 数据集,以鼓励未来在人工检测和评估生成的文本方面进行更多的研究。
Dec, 2022
通过使用不同的方法和特征,我们提出了一种基于 RoBERTa 模型和冻结语言模型嵌入特征的新方法,能够超过人类准确度水平和先前考虑的基准,在真实或假文本基准测试上取得更好的结果,并且分析了各种设置下所有提出分类器的鲁棒性以及对人工文本边界检测算法性能的负面影响。
Nov, 2023
该研究论文讨论预训练的语言模型在少量数据情况下完成自然语言处理任务的表现,提出了一种新的用于测量模型在真实世界中应用的少量样本任务的基准测试 RAFT,这个基准测试展示了当前技术存在的困难和挑战,虽然一些分类任务对于普通人来说也很困难,但普通人在这些任务上的表现超过了 GPT-3 模型。
Sep, 2021
通过引入多语言、多领域和多发生器的机器生成文本检测基准 M4GT-Bench,本研究解决了识别和区分机器生成文本与人类生成文本的问题,包括单语和多语二元机器生成文本检测、多类别检测以确定生成文本具体使用的模型以及在人机混合文本中确定生成文本与人类编写内容之间的边界的挑战。
Feb, 2024
我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战,这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能,包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD,我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样,涵盖了各种可能性,为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估,基于研究结果,结果主要与句子的序列长度有关。
Nov, 2023
本研究表明,通过针对 BERT 和 RobertA 模型进行微调,在检测 AI 生成的新闻中取得了最好的效果。Roberta 模型的得分为 98%,精度表现卓越,研究结论表明,神经网络可用于识别 ChatGPT 生成的虚假新闻,并表明这些模型在对抗错误信息方面能够发挥重要作用。
Jun, 2023
本文是关于机器生成文本和自然语言生成领域的综述。研究表明,机器生成文本与人类作者的文本越来越难以区分,因此我们讨论了现代自然语言生成系统带来的威胁模型,并对文本检测方法进行了最全面的综述。本文进一步讨论了机器生成文本的安全和社会背景,并提出了在未来工作中需要考虑的最关键威胁模型,以及确保检测系统本身通过公正、稳健和负责任的方式展示其信任性。
Oct, 2022
本文介绍了一种名为 GLTR 的工具,它基于基线统计方法来检测文本生成系统中的伪造文本,旨在帮助人类区分真实和伪造文本。研究表明,使用该工具可以将人类发现伪造文本的率从 54% 提升至 72%。
Jun, 2019
本文提出了一种有效的自动评估度量 RoMe,包括多个自然语言生成核心方面,如语言能力、句法和语义变化,通过基于自我监督神经网络的语义相似性等语言特征,结合树编辑距离和语法可接受性来评估生成句子的整体质量,并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明,在评估多个 NLG 任务生成的句子方面,RoMe 与人类判断的相关性比最先进的度量更强。
Mar, 2022