Sep, 2023

给定对语言生成系统的黑盒访问权限后的逆向工程解码策略

TL;DR我们通过反向工程解码方法,发现了文本生成时所使用的解码策略(例如 top-$k$ 或核心采样),这对于检测生成文本具有重要意义,并可揭示选择解码设置时造成的偏倚问题。我们对多种开源语言模型家族和生产系统(如 ChatGPT)进行了攻击。