May, 2024

基于贝叶斯说服的高效无模型对齐

TL;DR通过使用较小的模型,引入一种模型不可知且轻量级的贝叶斯说服对齐框架,为对齐黑盒大模型提供高效方法。在使用该框架进行训练后,希望我们的工作能够提供从贝叶斯说服的视角重新审视对齐框架的初步步骤,并取得优于先前模型的性能提升。