Oct, 2023

预防语言模型隐藏推理过程

TL;DR大型语言模型(LLMs)利用中间推理步骤来解决复杂问题,其中编码推理可能导致模型生成了人类无法理解的文本。我们说明了语言模型可以通过编码推理来提高性能,并提出了一种评估对抗编码推理的防御方法。在合适的条件下,我们的重组技术成功地防止模型每 KB 文本超过 3 位信息的编码。