May, 2024

通过数据整理提高安全对齐的大型语言模型鲁棒性

TL;DR我们提出了一种数据筛选框架,以增强大语言模型的安全对齐性,通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中,我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练,观察到在安全对齐方面对有害查询的响应性明显改善,例如当使用含有 5% 有害实例的众包数据集进行预训练时,添加相同数量的经过筛选的文本显著减少了大语言模型提供有害响应的可能性,并将攻击成功率降低了 71%。我们的研究代表了缓解基于训练的越狱风险以及加固大语言模型安全使用的重要进展。