随机鹦鹉寻找随机鹦鹉：LLMs 易调优且难以被其他 LLMs 检测出

Apr, 2023

随机鹦鹉寻找随机鹦鹉：LLMs 易调优且难以被其他 LLMs 检测出

Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to Fine-Tune and Hard to Detect with other LLMs

Da Silva Gameiro Henrique, Andrei Kucharavy, Rachid Guerraoui

TL;DR本文研究了如何对抗当前大规模语言模型检测工具的缺陷，发现攻击者结合 reinforcement from critic 优化方法和 AdamW 优化器可以轻松地规避检测，并对检测器进行破坏，这对防范恶意使用情况具有重要意义。

Abstract

The self-attention revolution allowed generative language models to scale and achieve increasingly impressive abilities. Such models - commonly referred to as →

self-attention revolution generative language models large language models llm detectability reinforcement from critic

发现论文，激发创造

逃离束缚：随机鹦鹉在网络安全环境中的胜出

利用预训练的大型语言模型作为网络安全环境中攻击代理，模拟真实网络攻击并在复杂决策任务中展现良好性能。

Aug, 2023

自回归之火：通过它们所训练解决的问题来理解大型语言模型

大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张，为了全面理解这些系统，我们需要考虑它们在训练中解决的问题：互联网文本的下一个词预测。通过认识到这个任务所带来的压力，我们可以对大语言模型采用的策略进行预测，从而推断它们的成功或失败。这种方法，我们称之为目的论方法，使我们能够确定三个因素，我们假设这些因素会影响大语言模型的准确性：执行任务的概率、目标输出的概率和提供的输入的概率。我们预测，当这些概率较高时，大语言模型的准确性会更高，而当概率较低时，即使在确定性环境下，概率也不应该起作用。为了验证我们的预测，我们对两个大语言模型（GPT-3.5 和 GPT-4）进行了十一项任务的评估，我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下，实验揭示了令人惊讶的失效模式。例如，当输出是高概率单词序列时，GPT-4 解码简单密码的准确率为 51%，但当输出是低概率时，准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说，我们得出结论，我们不应该把大语言模型评估为人类，而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。

Sep, 2023

关于 LLM 在篡改检测领域的能力研究

自 2020 年以来，特别是自 2020 年初以来，大语言模型 (LLMs) 已成为解决各种挑战的最强大的人工智能工具，从自然语言处理到各个领域的复杂问题解决。在伪造检测领域，LLMs 能够识别基本的篡改活动。为了评估 LLMs 在更专业领域的能力，我们收集了由各个公司开发的五种不同的 LLMs：GPT-4、LLaMA、Bard、ERNIE Bot 4.0 和通以谦闻。这种多样化的模型允许对它们在检测复杂篡改实例方面的性能进行全面评估。我们设计了两个检测领域：人工智能生成内容 (AIGC) 检测和篡改检测。AIGC 检测旨在测试区分图像是真实还是人工生成的能力。另一方面，篡改检测专注于识别篡改图像。根据我们的实验，大多数 LLMs 能够识别与逻辑不一致的复合图片，只有更强大的 LLMs 能够识别人眼可见的篡改迹象。所有 LLMs 都不能识别精心伪造的图像和由人工智能生成的非常逼真的图像。在伪造检测领域，LLMs 仍然有很长的路要走，特别是在可靠地识别高度复杂的伪造和非常逼真地模仿现实的 AI - 生成图像方面。

Jan, 2024

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

大型语言模型与反图灵测试

大型语言模型（LLMs）是自我监督的预训练模型，可适应广泛的自然语言任务，但其是否理解其所说的话或表现出智能受到广泛争议。提出了一个新的可能性，即它们表现出的智能实际上是镜像了面试官的智能，它可能更多地揭示了面试者的智能和信仰而不是 LLMs 的智能。该论文提出了七种启发于大脑系统的方法，以实现人工智能的普遍自主权。

Jul, 2022

辨别虚假信息：在 LLMs 时代的不断挑战

通过回答三个研究问题，本研究探讨了利用大型语言模型（LLMs）生成的谣言和虚假信息对目前存在的谣言检测技术的影响，以及通过使用 LLMs 作为强大的谣言防御手段以及针对这一威胁的新方法的可能性。

Sep, 2023

了解 LLMs 不知道的内容：一种简单有效的自我检测方法

提出了一种新颖的自我检测方法，通过扩展问题的文本表达并收集相应的答案，检测大型语言模型（LLMs）是否会产生虚假回答，证明了该方法在 LLM 效果上的有效性。

Oct, 2023

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023