AI "新闻" 内容农场的建立容易且难以检测：意大利的案例研究

Jun, 2024

AI "新闻" 内容农场的建立容易且难以检测：意大利的案例研究

AI "News" Content Farms Are Easy to Make and Hard to Detect: A Case Study in Italian

Giovanni Puccetti, Anna Rogers, Chiara Alzetta, Felice Dell'Orletta, Andrea Esuli

TL;DR大型语言模型（LLM）正在日益被用作 “内容农场” 模型（CFMs），用于生成可以通过真实新闻文章的合成文本。我们展示了只用 40K 份意大利新闻文章对大部分在英语上进行训练的 Llama（v1）进行微调就足以产生意大利本地人难以辨认为合成文本的新闻样本。我们研究了三个 LLM 和三种检测合成文本的方法（对数似然、DetectGPT 和监督分类），发现它们都比人类评比者表现更好，但在实际情况下都不实用（要求对令牌似然信息有访问权或大量 CFM 文本数据集）。我们还探索了创建代理 CFM 的可能性：在与真实 “内容农场” 使用的类似数据集上进行微调的 LLM。我们发现只需少量微调数据就能成功创建一个检测器，但我们需要知道使用了哪个基础 LLM，这是一个重大挑战。我们的结果表明，目前没有实际的方法来 “野外” 检测合成类似新闻的文本，而生成它们太容易。我们强调了对这个问题进行更多自然语言处理研究的紧迫性。

Abstract

large language models (LLMs) are increasingly used as "content farm" models (CFMs), to generate synthetic text that could pass for real news articles. This is already happening even for languages that do not have

large language models content farm models synthetic text detecting synthetic texts nlp research

发现论文，激发创造

大型语言模型生成的文本受到假新闻检测器的偏见

在大语言模型 (LLMs) 时代，我们发现许多现有的假新闻检测器存在显著偏见，更容易将 LLMs 生成的内容标记为假新闻，而常常误将人类撰写的假新闻分类为真实。为了解决这个问题，我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略，从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究，我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”，将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。

Sep, 2023

适应大语言模型时代的假新闻检测

本文研究了大型语言模型时代中的假新闻检测问题，发现仅训练于人工编写文章的检测器在检测机器生成的假新闻方面表现良好，但反之不成立。此外，由于检测器对机器生成的文本存在偏见，需要在训练集中使用比测试集中较低比例的机器生成新闻。基于我们的发现，我们提供了一个实用的策略来开发健壮的假新闻检测器。

Nov, 2023

评估大型语言模型在检测虚假新闻中的功效：一项比较分析

研究通过对比分析，评估了不同大型和小型 LLMs 在识别和过滤假新闻内容方面的有效性，并利用 Kaggle 的假新闻数据集样本探讨了当前 LLMs 在假新闻检测方面的能力和局限性，同时讨论了提高 AI 驱动信息完整性对开发人员和决策者的影响。

Jun, 2024

利用精调的大型语言模型进行虚假信息和假新闻检测的分析

利用 PEFT/LoRA 的方法对 Llama 2 大型语言模型进行细调，以用于辨析虚假信息和检测假新闻。该研究中，模型被细调以完成以下任务：解析揭示虚假信息和宣传叙事的文本、事实核查、假新闻检测、操纵分析、提取带情感的命名实体。实验结果表明，细调后的 Llama 2 模型能够对文本进行深度分析，揭示复杂的风格和叙事。命名实体的情感提取可以作为监督机器学习模型中的预测特征。

Sep, 2023

利用现实世界和生成的新闻文章语料库量化生成式媒体偏见

通过建立新的数据集并使用九个大语言模型，本研究研究了人工撰写文章和机器生成文章之间的性质变化以及政治偏见的检测，结果显示基准模型和经过调整的模型之间存在显著差异，并且大语言模型在分类器角色中也显示出政治偏见，为进一步研究大语言模型政治偏见及其影响提供了一个基础。

Jun, 2024

探索 LLMs 作为有针对性的合成文本数据源，以最小化高置信度的错误分类

使用大型语言模型进行数据增强，减少高置信度错误分类，并与人类数据进行比较，以降低成本并保持同样的准确性。

Mar, 2024

重新寻求真相：多轮检索增强的大型语言模型是强大的假新闻检测器

通过多轮检索策略从网络源自动抽取关键证据进行主张验证的检索增强 LLMs 框架是第一种能自动地并有目的性地从网页信息中提取关键证据的框架，通过在三个现实世界数据集上进行全面的实验证明了该框架对现有方法的优越性。重要的是，我们的模型不仅提供准确的结论，还提供可读的解释，以提高结果的可解释性。

Mar, 2024

用于生成和评估逆事实的 LLMs：一项全面研究

NLP 模型生成反事实样本的能力及其对数据增强的影响进行了比较和评估，发现 LLMs 生成流利但改动较大的反事实样本，数据增强效果与人工生成的样本相比有明显差距。此外，LLMs 对偏标签数据的评估表现出明显的偏向性，而 GPT4 对此偏见更加稳健，并且其得分与自动评价指标具有很好的相关性。研究结果揭示了几个限制，并指出了未来的研究方向。

Apr, 2024

大型语言模型能否检测科学新闻报道中的错误信息？

使用大型语言模型检测科学报道中的虚假信息，针对缺乏明确标签的情况，提出了多种基于大型语言模型的基准架构和提示方法，包括零样本、少样本和连贯思维提示等。

Feb, 2024

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用 LLM 进行合成数据生成的潜力和局限性。

Oct, 2023