ICMLMay, 2023

指导调整期间的语言模型中毒

TL;DR本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准,大型 LMs 在此方面更易受攻击,而基于数据过滤或减少模型容量的防御措施提供的保护有限,同时会降低测试准确性。