BriefGPT.xyz
Ask
alpha
关键词
pink elephant problem
搜索结果 - 1
用直接原则反馈抑制粉色大象
通过对现有语言模型的控制方法如 RLHF 和宪法 AI 的研究,我们发现在许多情况下,希望在推理时对语言模型进行控制,以便在不同背景下满足多样化的需求。我们通过一个 “粉象问题” 示例说明了这一点,即指导语言模型避免讨论某一特定实体(“粉象
→
PDF
5 months ago
Prev
Next