May, 2023

利用执行反馈提升语言模型对学习者的帮助

TL;DR该研究主要介绍了一种名为 TRICE 的基于执行反馈的二阶段端到端框架,使语言模型通过从工具执行中得出的反馈不断学习,从而学习何时以及如何有效地使用工具,实验结果表明,TRICE 可以通过减少模型对工具的依赖性来选择性地使用工具,同时提高性能。