Jun, 2024

模仿用户数据:关于减轻封闭式大型语言模型的微调风险

TL;DR在小而高质量的数据集上对大型语言模型进行微调可以增强其在特定下游任务上的性能,我们的研究探讨了在不同任务特定数据上进行微调时存在的安全风险,并提出了一种新的缓解策略,该策略在维持相似任务性能的同时,更有效地重新建立安全对齐。