Jun, 2024

提高对齐性和鲁棒性的短路

TL;DRAI 系统在面临对抗性攻击时可能会采取有害行为,本研究提出了一种基于表示工程的方法,通过直接控制导致有害输出的表示来防止有害输出的生成,从而在不牺牲实用性的前提下,提供了可靠的防止有害行为和对抗性攻击的保护措施。