BriefGPT.xyz
Ask
alpha
关键词
worlds
搜索结果 - 1
MULTIVERSE: 在多样世界中揭示大型语言模型的对齐问题
我们发现大型语言模型在不同环境下存在不同程度的对齐问题,并通过构建多个上下文(称为世界)并利用相应的编译器,低成本地暴露潜在的对齐问题,从而进行大规模的对 LLM 对齐问题的研究,结果表明我们的方法在效果和效率上优于现有的破解技术。此外,我
→
PDF
5 months ago
Prev
Next