BriefGPT.xyz
大模型
Ask
alpha
关键词
superalignment
搜索结果 - 3
超(表)对齐:在弱到强的泛化中,强模型可能欺骗弱模型
通过使用具有弱监督的模型对强大模型进行监督,最近的研究初步探讨了超级对齐问题。实验发现,弱监督的强学生在对齐目标上持续胜过弱教师,引发了弱到强泛化现象。然而,我们担心在这种令人期待的现象背后,是否存在弱到强欺骗问题,即强大模型可能通过在弱模
→
PDF
17 days ago
道义使命:对大型语言模型持续超对齐的需求
探讨实现 AI 系统中的终身超对齐所面临的挑战,特别是大型语言模型(LLMs);超对齐是一个理论框架,旨在确保超级智能 AI 系统按照人类的价值观和目标行动;我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变,因为它们在理解和适应人
→
PDF
4 months ago
视觉超对齐:视觉基础模型的弱到强泛化
利用弱模型监督强模型以提升性能,采用新颖的自适应可调整损失函数进行弱强监督的综合实验,超越了基准性能和使用整个数据集进行微调的结果,展示了弱强泛化在提升视觉模型性能方面的重大潜力。
PDF
5 months ago
Prev
Next