Dec, 2023

T-Eval: 逐步评估工具利用能力

TL;DR大型语言模型的工具利用能力评估需要细致分解,利用指导、规划、推理、检索、理解和审查等多个子过程,通过T-Eval提供了多个子领域的工具利用评估,既展示了结果导向评估的一致性,也提供了对大型语言模型能力的细粒度分析。