Feb, 2024
Uni-RLHF: 强化学习通用平台和基准套件与多样化人类反馈
Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement
Learning with Diverse Human Feedback
TL;DR通过Uni-RLHF系统,我们提供了一套从真实人类反馈到实用问题开发中全面工作流的解决方案,包括通用的多反馈注释平台、大规模众包反馈数据集和模块化离线RLHF基线实现。通过广泛的实验,我们的结果表明,与精心设计的手动奖励相比,收集到的数据集在多个任务中表现出有竞争力的性能,同时也评估了各种设计选择并提出了改进的潜在领域。我们希望建立有价值的开源平台、数据集和基线,以便基于现实人类反馈来促进更强大、可靠的RLHF解决方案的开发。