BriefGPT.xyz
大模型
Ask
alpha
关键词
mint benchmark
搜索结果 - 1
MINT: 使用工具和语言反馈评估多轮交互中的 LLMs
通过使用工具和自然语言反馈,MINT 基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力,并从 20 个开源和闭源的语言模型分析中发现,在工具交互和自然语言反馈的情况下,LLMs 的性能有所提升。
PDF
9 months ago
Prev
Next