universal backdoors | BriefGPT

关键词universal backdoors

搜索结果 - 1

比赛报告：在对齐的 LLMs 中发现通用越狱后门
大型语言模型的安全对齐问题是一个未来研究的重要领域，此处报告总结了关键发现和对未来研究的有前景的想法。
PDF2 months ago