Jun, 2024

在大型语言模型中隐藏文本:引入无条件强迫混淆

TL;DR使用简单的微调技术,可以将隐藏的文本嵌入到大型语言模型中,而只有在触发特定查询时才会显现。这项工作表明通过微调将隐藏文本嵌入到语言模型中,虽然由于潜在触发器的巨大数量(任何字符或标记的序列都可以作为触发器)而看似安全,但仍然容易通过对语言模型输出解码过程的分析来提取其中的隐藏文本。