Feb, 2024

LLM 的高效探索

TL;DR我们提出了在改进大规模语言模型方面,通过高效探索收集人类反馈的实质性好处的证据。在我们的实验中,一个代理程序在逐步生成查询的同时,通过拟合奖励模型来获取反馈。我们最佳的代理程序使用双 Thompson 抽样来生成查询,不确定性则由一种认知神经网络表示。我们的结果表明,高效探索能够在很少的查询次数下实现高水平的性能。此外,不确定性估计和探索策略的选择都起着关键作用。