给定对语言生成系统的黑盒访问权限后的逆向工程解码策略

Sep, 2023

给定对语言生成系统的黑盒访问权限后的逆向工程解码策略

Reverse-Engineering Decoding Strategies Given Blackbox Access to a Language Generation System

Daphne Ippolito, Nicholas Carlini, Katherine Lee, Milad Nasr, Yun William Yu

TL;DR我们通过反向工程解码方法，发现了文本生成时所使用的解码策略（例如 top-$k$ 或核心采样），这对于检测生成文本具有重要意义，并可揭示选择解码设置时造成的偏倚问题。我们对多种开源语言模型家族和生产系统（如 ChatGPT）进行了攻击。

Abstract

neural language models are increasingly deployed into APIs and websites that allow a user to pass in a prompt and receive generated text. Many of these systems do not reveal generation parameters. In this paper,

neural language models decoding method generation parameters reverse-engineer bias detection

发现论文，激发创造

神经文本生成器的解码策略

该研究对语言生成任务和解码策略之间的相互作用进行了全面分析，测量了生成文本属性随着解码策略和任务的变化情况，并使用人工和自动评估发现了之前观察到的和令人惊讶的结果，如语言生成中的多样性与质量之间的平衡是非常特定于任务的，而模式搜索方法如光束搜索在机器翻译中表现出色，但在故事生成中会导致不连贯和重复的文本。

Mar, 2022

关于窃取语言模型解码算法的风险

本研究发现黑客可以以低廉代价窃取现有文本 API 中流行的语言模型（包括 GPT-2 和 GPT-3）的解码算法类型和超参数

Mar, 2023

神经文本退化的好奇案例

本研究发现人类文本和机器生成文本的分布存在差异，在相同的神经语言模型下使用不同的解码策略可以显著影响文本质量，提出了一种基于动态核心采样的方法来提高生成文本的多样性和流畅性。

Apr, 2019

神经文本生成模型配置反向工程

本文提出了一项新任务，即区分生成文本的几个变种中的哪一个，并进行了一系列诊断测试，以观察建模选择（例如取样方法，top-k 概率，模型架构等）是否在生成的文本中留下可检测的痕迹。我们的主要发现是，这些痕迹存在，并且不同的建模选择可以通过观察生成的文本来推断出来，这表明神经文本生成器可能比以前想象的更敏感于各种建模选择。

Apr, 2020

解码策略对生成文本可验证性的影响

这篇论文探究了最新的预训练语言模型生成的文本是否符合事实世界知识，并发现了在解码策略中存在着可验证性与重复性之间的权衡，提出了一种简单而有效的解码策略，可以生成更少重复且更易验证的文本。

Nov, 2019

神经文本检测器的高效黑盒对抗攻击

通过调整参数、优化提示语和进行字符级别的变异，我们研究了改变 GPT-3.5 生成的文本的三种简单且资源高效的策略，这些策略在人类不会察觉但能使神经文本检测器误分类的文本中特别有效。

Nov, 2023

神经叙事生成的解码方法

应用和评估近期的解码方法，进行神经叙事生成与神经回复生成任务的类比分析，并在多个标准上进行自动和人工评估，结果表明，核采样阈值位于 0.7 到 0.9 之间，最大互信息目标可以提高生成的故事质量，而自动度量标准与人类对叙事质量的所有定性指标均没有相关性。

Oct, 2020

当人类被欺骗时，自动检测生成文本最容易

本文分析了三种采样解码策略，揭示了在提高欺骗人类的能力时，会引入使自动检测系统易于检测的统计异常，同时也表明即使是多句子摘录也有超过 30％的概率欺骗专家人类评分员，强调了使用人类和自动检测器来评估文本生成系统的重要性。

Nov, 2019

自我欺骗：大型语言模型语义防火墙的逆渗透

通过研究语言模型监管的方法和攻击，本文提出一种自动破解监管的方法，即引入语意防火墙概念并提供三种技术实现方式，从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性，为未来研究提供了启示。

Aug, 2023

自然语言生成中的多样性与质量的权衡

将解码算法视为多目标优化问题，旨在同时最大化回应质量和多样性。当多样性是一个优先考虑的因素时，所有方法表现相似，但当质量被视为更重要时，近期提出的核采样 (nucleus sampling) 优于所有其他评估的解码算法。在这一发现的基础上，我们设计并评估了一种名为 “选择性抽样” 的算法，该算法可以近似全局归一化温度抽样。

Apr, 2020