关键词learning from human feedback
搜索结果 - 10
  • 基于已记录的人类反馈的离线策略评估
    PDF20 days ago
  • ACL谁的偏好?公平偏好的差异及其对利用人类反馈的人工智能公平性的影响
    PDF25 days ago
  • 利用人工修订改进文本布局模型
    PDF2 months ago
  • 从对抗性反馈中的上下文对决强盗问题的近乎最优算法
    PDF3 months ago
  • BEDD: MineRL BASALT 评估与演示数据集,用于训练和评测解决模糊任务的智能体
    PDF7 months ago
  • AAAI通过自然语言以人工反馈聚合大规模语言模型数据对齐
    PDF7 months ago
  • 基于密度估计的从两两人类偏好中学习的视角
    PDF7 months ago
  • 受指导的偏见:经过指导调节的语言模型呈现出应急认知偏差
    PDFa year ago
  • 2021 年 BASALT 学习与人类反馈竞赛回顾
    PDF2 years ago
  • 从人类反馈中学习的 MineRL BASALT 比赛
    PDF3 years ago
Prev
Next