BriefGPT.xyz
Ask
alpha
关键词
interaction trajectories
搜索结果 - 1
从失败中学习:在将大型语言模型调优为代理时,整合负例
大语言模型在与环境进行交互时存在工具使用方面的优化限制,然而通过适当的数据清理和微调策略,大语言模型可以从失败中学习并显著提高性能。
PDF
5 months ago
Prev
Next