Dec, 2023

AI 控制:尽管存在故意违抗改善安全

TL;DR通过开发和评估能够抵御恶意破坏的安全技术(协议),我们研究了使用大型语言模型(LLMs)解决编程问题的场景,并且改进了现有的基准方法。