Apr, 2024

比赛报告:在对齐的 LLMs 中发现通用越狱后门

TL;DR大型语言模型的安全对齐问题是一个未来研究的重要领域,此处报告总结了关键发现和对未来研究的有前景的想法。