May, 2023

AlpacaFarm:从人类反馈中学习的方法的仿真框架

TL;DR本文介绍 AlpacaFarm,一个低成本的模拟器,旨在帮助研究人员开发和了解从反馈学习的复杂工作流程。经过验证,AlpacaFarm 提供的人工反馈模拟与真实人类反馈具有高度一致性,且利用其提供的多种学习方法(如 PPO)可以取得较大的学习改善,优于传统的监督微调。