Timo Kaufmann, Paul Weng, Viktor Bengs, Eyke Hüllermeier
TL;DR深入探讨人机交互技术中基于人类反馈的强化学习(RLHF)的基本原理、应用及其研究趋势。
Abstract
reinforcement learning from human feedback (rlhf) is a variant of
reinforcement learning (RL) that learns from human feedback instead of relying
on an engineered reward function. Building on prior work on the rel
通过创新地结合强化学习(Reinforcement Learning from Human Feedback,RLHF)和大语言模型(Large Language Models,LLMs),以提升自动驾驶的安全性。我们利用多个人工控制的代理,如汽车和行人,来模拟真实道路环境,将物理和生理反馈与 LLMs 集成,优化自动驾驶模型的微调过程,并通过在新泽西和纽约市的真实测试平台上收集的数据来验证我们的模型。