BriefGPT.xyz
大模型
Ask
alpha
关键词
alignment goals
搜索结果 - 2
通过人类反馈进行强化学习的 AI 对齐?矛盾和限制
本文批评性地评估了通过强化学习从反馈中对齐人工智能系统,特别是大规模语言模型,与人的价值观和意图的尝试,包括人的反馈和人工智能的反馈。具体来说,我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判,我们考察了 RL
→
PDF
8 days ago
从指令到内在人类价值观 —— 大型模型目标同步调查
通过综合调查现有工作的不同对齐目标并追踪其演变路径,本文揭示了从基本能力到价值取向的目标转变,表明内在人类价值可能是提升大型语言模型对齐目标的关键,进一步讨论了实现此内在价值对齐的挑战,并提供了一系列可用资源以支持未来对大型模型对齐的研究。
PDF
10 months ago
Prev
Next