Jun, 2024
提高对齐性和鲁棒性的短路
Improving Alignment and Robustness with Short Circuiting
Andy Zou, Long Phan, Justin Wang, Derek Duenas, Maxwell Lin...
TL;DRAI 系统在面临对抗性攻击时可能会采取有害行为,本研究提出了一种基于表示工程的方法,通过直接控制导致有害输出的表示来防止有害输出的生成,从而在不牺牲实用性的前提下,提供了可靠的防止有害行为和对抗性攻击的保护措施。