Apr, 2023

随机鹦鹉寻找随机鹦鹉:LLMs 易调优且难以被其他 LLMs 检测出

TL;DR本文研究了如何对抗当前大规模语言模型检测工具的缺陷,发现攻击者结合 reinforcement from critic 优化方法和 AdamW 优化器可以轻松地规避检测,并对检测器进行破坏,这对防范恶意使用情况具有重要意义。