探索文本生成中阴谋论记忆化的现象

ACLJan, 2021

探索文本生成中阴谋论记忆化的现象

Investigating Memorization of Conspiracy Theories in Text Generation

Sharon Levy, Michael Saxon, William Yang Wang

TL;DR研究表明，预训练的生成语言模型很容易会生成蕴含阴谋论的文本，指出在发布自然语言生成应用之前需要进行彻底的审核，并深入探讨生成语言模型中记忆的缺陷。

Abstract

The adoption of natural language generation (nlg) models can leave individuals vulnerable to the generation of harmful information memorized by the models, such as →

natural language generation conspiracy theories generative language models memorization nlg

发现论文，激发创造

利用大型语言模型检测德语泰勒克通道中超越关键词偏见的阴谋论

使用 BERT-like 模型和 prompt-based 方法（Llama2、GPT-3.5 和 GPT-4）来检测德语 Telegram 消息中的阴谋论，结果表明两种方法都是有效的，最佳模型是 GPT-4，具有自定义的阴谋论定义。

Apr, 2024

大规模分类阴谋爆料：虚假警报和错误关联

在线讨论中经常涉及阴谋论，本研究针对不同主题和在线社区中的阴谋论讨论建立了一个以作者对阴谋信念的观点为基础的分类体系，并通过人工标注的训练数据使用基于 BERT 的模型进行分类，结果显示 GPT 在逻辑推理方面存在显著缺陷，与我们的分类器相比表现相近，研究揭示了大型语言模型在需要细致上下文理解的任务中的潜在应用。

Mar, 2024

数字欺骗视角下自然语言生成进展综述

本文主要探讨自然语言生成器 (NLG) 领域包括方法、评估、任务等方面的相关研究，并特别关注了 NLG 被恶意利用的潜在危险，以及存在的偏见风险。

Aug, 2022

ConspEmoLLM：情感为基础的大规模语言模型用于阴谋理论检测

利用情感特征和情感导向的大型语言模型，我们提出了一个名为 ConspEmoLLM 的开源系统，可用于准确检测误传信息和阴谋论，并能执行与阴谋论相关的多项任务，如理论类型分类和相关讨论的检测。我们的研究证明，ConspEmoLLM 在这些任务上表现出色，超过了几个开源通用领域的大型语言模型和 ChatGPT，以及使用了 ConDID 进行服务调整和评估但未使用情感特征的大型语言模型。

Mar, 2024

神经语言模型中的反事实记忆

本文提出了一种源于心理学中人类记忆分类的对抗性记忆学习方法，进行神经语言模型的训练数据筛选，以减少其对训练数据中的敏感信息的记忆，并探究其训练样本中的对抗性记忆，从而提供一种可用于测试数据及其生成的文本来源推定的直接证据。

Dec, 2021

自然语言生成中幻觉的调查

本文综述了关于深度学习在自然语言生成中出现幻觉问题的度量、缓解方法和未来方向，以及针对抽象摘要、对话生成、生成式问答、数据到文本生成、机器翻译和视觉语言生成的幻觉问题的任务特定研究进展。

Feb, 2022

使用预训练语言模型生成反对仇恨言论的对比研究

本研究旨在使用预训练的语言模型对抗英语在线仇恨言论，我们发现自回归模型与随机解码结合是最有前途的；同时研究发现成功的反目标试验关键不在于整体相似性，而是训练数据中的特定子集与测试目标的共性。最后，我们提出了一种管道技术，将自动生成的反叙事加以自动后期编辑以提高其质量。

Apr, 2022

防御神经伪新闻

该研究呈现了一种名为 Grover 的可控文本生成模型，该模型可生成逼真的假新闻，但通过使用 Grover 模型自身进行验证，可提高检测真假信息的准确性。同时，该研究强调在探索和应对类似 Grover 模型可能带来的风险时，需关注其中的道德问题。

May, 2019

机器生成文本的检测：文献综述

研究概述了语言模型产生的虚假文本、媒体关注度、自然语言生成、社会意义等关键词，同时探索了机器产生文本的趋势和更大的社会影响。

Jan, 2024

认知幻象：大型语言模型中幻觉的综述

研究总结了最近对大型语言模型中的幻觉现象的有趣见解，提出了一个包含各种文本生成任务中幻觉的新颖分类法，以及理论洞察、检测方法和改进方法，并提出了若干未来的研究方向。

Sep, 2023