BriefGPT.xyz
Ask
alpha
关键词
constitutional ai
搜索结果 - 6
公共宪政人工智能
为确保人工智能系统具备有效治理所需的合法性,本文提出了 “公众宪政人工智能” 方法,通过多元利益相关者参与制定人工智能发展的原则,形成 “人工智能宪法”,以实现人工智能治理与公众意愿的真正民主合法性,并建立 “人工智能法庭” 以发展 “人工
→
PDF
12 days ago
AI 对齐的社会选择:应对多样化的人类反馈
基金会模型的微调是为了避免不安全或有问题的行为,而利用人类反馈进行强化学习或采用宪法人工智能的方法,通过社会选择来处理潜在的人类意见分歧并影响模型的行为。
PDF
3 months ago
ACL
IterAlign: 大型语言模型的迭代式结构对齐
使用迭代自对准框架 IterAlign,通过红队测试自动发现和纠正大型语言模型的弱点,提出了一个数据驱动的基于宪法的自对准方法,能够显著改善大型语言模型的对齐性能。
PDF
3 months ago
用直接原则反馈抑制粉色大象
通过对现有语言模型的控制方法如 RLHF 和宪法 AI 的研究,我们发现在许多情况下,希望在推理时对语言模型进行控制,以便在不同背景下满足多样化的需求。我们通过一个 “粉象问题” 示例说明了这一点,即指导语言模型避免讨论某一特定实体(“粉象
→
PDF
5 months ago
宪法人工智能的具体原则与普遍原则
人类反馈可以防止对话模型中明显有害的话语,但不能自动减轻隐蔽的问题行为,如为自我保护或权力而表达的愿望。宪法人工智能提供了一种替代方法,用仅基于一份书面原则的人工智能模型的反馈取代人类反馈。我们发现这种方法能有效防止这种行为的表达。简单原则
→
PDF
9 months ago
宪法人工智能:来自人工智能反馈的无害性
通过制定一套规则或原则,通过自我改善代替人工标记,使用有监督学习和强化学习构建的 “宪法 AI”,能够更精确地控制 AI 行为并提高透明度和性能。
PDF
2 years ago
Prev
Next