May, 2024

应用密码模型进行压力测试能力引发

TL;DR研究探讨了使用精调模型获取当前模型隐藏能力的有效性,发现精调能够充分获取密码锁定模型的隐藏能力,并能够获取通过相同或不同密码实现的其他能力,此外,强化学习等方法在仅有评估而无演示的情况下,仍然能够有效获取能力,研究结果提供了对当前模型隐藏能力获取方法可靠性的见解。