BriefGPT.xyz
Ask
alpha
关键词
adversarial influences
搜索结果 - 1
通过数据整理提高安全对齐的大型语言模型鲁棒性
我们提出了一种数据筛选框架,以增强大语言模型的安全对齐性,通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中,我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练,观察到在安全对齐方面对有害查询的响应性明显改
→
PDF
a month ago
Prev
Next