Sep, 2023

MINT: 使用工具和语言反馈评估多轮交互中的 LLMs

TL;DR通过使用工具和自然语言反馈,MINT 基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力,并从 20 个开源和闭源的语言模型分析中发现,在工具交互和自然语言反馈的情况下,LLMs 的性能有所提升。