Feb, 2024

语言模型代理的软自一致性改进

TL;DR大语言模型(LLMs)的生成可以通过对多个解决方案进行采样和评分来提高。目前的 “采样和选择” 方法依靠多数投票来评分答案,但是在任务具有许多不同且有效的答案时,通过投票选择需要大量的样本,这使得对于涉及顺序生成多个操作(答案)的交互式任务来说,SC 的代价过高。我们展示了如何通过软化评分准则来提高成功率,并引入了软自一致性(Soft-SC),用模型可能性计算连续得分来代替 SC 的不连续评分,使其能够在操作稀疏分布时进行选择。Soft-SC 在长时间跨度的交互任务上提高了性能和效率,相比于 SC,所需样本仅一半或更少,并在编写 bash 程序时的绝对成功率上比 SC 提高了 1.3%,在在线购物(WebShop)上提高了 6.6%,在交互式家庭游戏(ALFWorld)上提高了 4.7%。最后,我们证明了 Soft-SC 可以应用于开源和黑盒模型。