BriefGPT.xyz
大模型
Ask
alpha
关键词
reinforcement learning from feedback
搜索结果 - 1
通过人类反馈进行强化学习的 AI 对齐?矛盾和限制
本文批评性地评估了通过强化学习从反馈中对齐人工智能系统,特别是大规模语言模型,与人的价值观和意图的尝试,包括人的反馈和人工智能的反馈。具体来说,我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判,我们考察了 RL
→
PDF
8 days ago
Prev
Next