Mar, 2024
道义使命:对大型语言模型持续超对齐的需求
A Moral Imperative: The Need for Continual Superalignment of Large
Language Models
TL;DR探讨实现AI系统中的终身超对齐所面临的挑战,特别是大型语言模型(LLMs);超对齐是一个理论框架,旨在确保超级智能AI系统按照人类的价值观和目标行动;我们认为实现超对齐需要对当前LLM体系结构进行重大改变,因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性;通过分析两个不同的例子,我们阐明LLM面对训练数据的限制,无法与当代人类价值观和情景相契合;最后,本文探讨了解决和可能减轻这种对齐差异的潜在策略,提出了追求更适应和响应性的AI系统的路径。