Sep, 2023
给定对语言生成系统的黑盒访问权限后的逆向工程解码策略
Reverse-Engineering Decoding Strategies Given Blackbox Access to a Language Generation System
Daphne Ippolito, Nicholas Carlini, Katherine Lee, Milad Nasr, Yun William Yu
TL;DR我们通过反向工程解码方法,发现了文本生成时所使用的解码策略(例如 top-$k$ 或核心采样),这对于检测生成文本具有重要意义,并可揭示选择解码设置时造成的偏倚问题。我们对多种开源语言模型家族和生产系统(如 ChatGPT)进行了攻击。