关键词learning from human feedback
搜索结果 - 10
- 基于已记录的人类反馈的离线策略评估PDF20 days ago
- ACL谁的偏好?公平偏好的差异及其对利用人类反馈的人工智能公平性的影响PDF25 days ago
- 利用人工修订改进文本布局模型PDF2 months ago
- 从对抗性反馈中的上下文对决强盗问题的近乎最优算法PDF3 months ago
- BEDD: MineRL BASALT 评估与演示数据集,用于训练和评测解决模糊任务的智能体PDF7 months ago
- AAAI通过自然语言以人工反馈聚合大规模语言模型数据对齐PDF7 months ago
- 基于密度估计的从两两人类偏好中学习的视角PDF7 months ago
- 受指导的偏见:经过指导调节的语言模型呈现出应急认知偏差PDFa year ago
- 2021 年 BASALT 学习与人类反馈竞赛回顾PDF2 years ago
- 从人类反馈中学习的 MineRL BASALT 比赛PDF3 years ago
Prev
Next