Sep, 2023

MINT: 使用工具和语言反馈评估多轮交互中的LLMs

TL;DR通过使用工具和自然语言反馈,MINT基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力,并从20个开源和闭源的语言模型分析中发现,在工具交互和自然语言反馈的情况下,LLMs的性能有所提升。