Jan, 2024

InFoBench:评估大型语言模型的指令遵循能力

TL;DR介绍了Decomposed Requirements Following Ratio (DRFR)这一新的指标,用于评估大型语言模型(LLMs)遵循指示的能力;配合该指标的InFoBench基准,包含500个不同指令和2250个分解问题,通过与传统评分方法和注释来源的比较,证明了DRFR的可靠性和GPT-4作为一种经济高效的注释工具的有效性;该研究揭示了多个先进LLM的优势和需要改进的区域,特别是在复杂指示遵循方面;为未来LLM的开发和评估提供了有益的见解。