BriefGPT.xyz
Ask
alpha
关键词
alignment-oriented tasks
搜索结果 - 1
机器语言模型中对齐和有用性之间的权衡
语言模型对齐是 AI 安全的重要组成部分,通过增强期望行为和抑制非期望行为,使人类和语言模型之间进行安全交互。在这篇论文中,我们研究了对齐增加和模型有用性减少之间的权衡,并提出了一个理论框架,以在实证上证明其相关性。我们发现,当表示工程向量
→
PDF
5 months ago
Prev
Next