Jun, 2024

LLM 自学与交叉模型蒸馏:拒绝模式对齐的有效方法

TL;DR通过研究模型对有毒提示的脆弱性和拒绝模式的统计,提出了自我提炼和跨模型提炼的方法来提高大型语言模型的安全性和拒绝率的研究。