Feb, 2024

对控制权空洞越狱的强制拒绝

TL;DR大型语言模型(LLMs)的崛起引起了对 “越狱” 存在的关注,本研究通过使用高质量问题集和更准确的评分算法,提出了一个更好地区分有效和无效越狱的新基准,结果表明这种新的评分方案更符合人类对回答质量和越狱有效性的判断。