关键词human values
搜索结果 - 39
  • 安全算法:通过控制参数和激活函数在测试时间对齐语言模型的安全性
    PDF17 days ago
  • 失败是命中注定的,但可以淡化:关于大规模视觉语言模型中的不良行为的特征化和缓解
    PDF23 days ago
  • 在线 DPO:在线直接偏好优化与快慢追踪
    PDFa month ago
  • 深思专家的混合(MoTE):思维链和专家混合在自我对齐中的协同作用
    PDF2 months ago
  • 大型语言模型中的高维人类价值表示
    PDF3 months ago
  • 人类价值是什么,我们如何使人工智能与之相吻合?
    PDF3 months ago
  • 道义使命:对大型语言模型持续超对齐的需求
    PDF4 months ago
  • 对齐重新排版
    PDF4 months ago
  • AI 推理中的人类价值建模
    PDF5 months ago
  • 基于垄断对话社会场景模拟的大型语言模型自对齐
    PDF5 months ago
  • 迭代数据平滑:在 RLHF 中缓解奖励过拟合和过优化
    PDF5 months ago
  • 朝着具有社会和道德意识的强化学习智能体:利用 LLM 进行奖励设计
    PDF5 months ago
  • 即时对齐:将聊天机器人行为调整到已建立的规范上
    PDF6 months ago
  • 衡量价值对齐
    PDF6 months ago
  • AAAI学习人类化的表示以实现学习人类价值
    PDF6 months ago
  • 神经符号价值启发人工智能的原因、内容和方法
    PDF7 months ago
  • AAAI使用单类决策树从示范中学习安全约束
    PDF7 months ago
  • 构建大型语言模型与多样反馈的一致性对齐
    PDF9 months ago
  • GPT-4 在 ETHICS 数据集上的评估
    PDF9 months ago
  • 价值万花筒:为人类价值观、权利和责任与人工智能进行互动
    PDF10 months ago
Prev