Jul, 2023

LLM审查:机器学习挑战还是计算机安全问题?

TL;DR大型语言模型在理解复杂指令方面显示出令人印象深刻的能力,但是它们对提供的指令的盲目奉承引发了对恶意使用风险的担忧。本文介绍了这种语义审查方法的理论局限性,并指出由于大型语言模型的编程和按指令行事的能力而产生的审查所带来的困难。此外,我们认为这些挑战不仅仅局限于语义审查,有了足够的背景知识,攻击者可以从一组允许的输出中重构出不可接受的内容。因此,我们建议重新评估审查问题,并将其视为一个安全问题,采用基于安全的方法来减轻潜在的风险。