constitutional ai | BriefGPT

关键词constitutional ai

搜索结果 - 6

公共宪政人工智能
为确保人工智能系统具备有效治理所需的合法性，本文提出了 “公众宪政人工智能” 方法，通过多元利益相关者参与制定人工智能发展的原则，形成 “人工智能宪法”，以实现人工智能治理与公众意愿的真正民主合法性，并建立 “人工智能法庭” 以发展 “人工
PDF12 days ago
AI 对齐的社会选择：应对多样化的人类反馈
基金会模型的微调是为了避免不安全或有问题的行为，而利用人类反馈进行强化学习或采用宪法人工智能的方法，通过社会选择来处理潜在的人类意见分歧并影响模型的行为。
PDF3 months ago
ACLIterAlign: 大型语言模型的迭代式结构对齐
使用迭代自对准框架 IterAlign，通过红队测试自动发现和纠正大型语言模型的弱点，提出了一个数据驱动的基于宪法的自对准方法，能够显著改善大型语言模型的对齐性能。
PDF3 months ago
用直接原则反馈抑制粉色大象
通过对现有语言模型的控制方法如 RLHF 和宪法 AI 的研究，我们发现在许多情况下，希望在推理时对语言模型进行控制，以便在不同背景下满足多样化的需求。我们通过一个 “粉象问题” 示例说明了这一点，即指导语言模型避免讨论某一特定实体（“粉象
PDF5 months ago
宪法人工智能的具体原则与普遍原则
人类反馈可以防止对话模型中明显有害的话语，但不能自动减轻隐蔽的问题行为，如为自我保护或权力而表达的愿望。宪法人工智能提供了一种替代方法，用仅基于一份书面原则的人工智能模型的反馈取代人类反馈。我们发现这种方法能有效防止这种行为的表达。简单原则
PDF9 months ago
宪法人工智能：来自人工智能反馈的无害性
通过制定一套规则或原则，通过自我改善代替人工标记，使用有监督学习和强化学习构建的 “宪法 AI”，能够更精确地控制 AI 行为并提高透明度和性能。
PDF2 years ago