有用的 LLM 评估调查
从预训练语言模型(PLM)到大型语言模型(LLM),自然语言处理(NLP)领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估 LLM 的困难,这篇论文调查了关于 LLM 评估的多篇论文,并总结了 LLM 的四个核心能力,包括推理、知识、可靠性和安全性。在这个能力结构下,相似的任务被合并以反映相应的能力,而新的任务也可以轻松地添加到系统中。最后,给出了关于 LLM 评估未来方向的建议。
Aug, 2023
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估 LLMs 的方法和维度,并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023
我们提出了一个模块化的多语言模型框架,将大型语言模型能力分解为规划器、调用器和摘要生成器,并通过两阶段训练范式有效地训练该框架,该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果,凸显了其在工具学习中的功效和优势。
Jan, 2024
利用 ResearchArena 测量大型语言模型代理在进行学术调查的能力,将调查流程分为信息发现、信息选择和信息组织三个阶段,在离线环境中评估代理定位支持材料、对定位的论文进行排名和将其组织成层次知识思维导图的能力,根据初步评估发现大型语言模型方法与基于关键词检索技术相比表现不佳,未来研究具有重要发展机会。
Jun, 2024
通过分析 LLMs 在各种对话场景中的多面能力,该研究旨在了解 LLMs 如何推进不同方面的谈判研究,包括设计对话系统、提供教学反馈和扩大数据收集实践。结果表明,虽然 GPT-4 在各种任务上表现出优越性,但在主观评估谈判对话和生成上下文恰当且战略优势的回复方面,模型与人类玩家的相关性较差、往往困难重重。
Feb, 2024
该研究综述了大型语言模型的评估方法,并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法,以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣,以促进负责任发展和最大化社会利益,同时最小化潜在风险。
Oct, 2023
研究了通用 Web 语料库上训练的语言模型的计划能力,开发了基于国际计划竞赛领域的基准套件,在自治、启发式和人机协作模式下对 LLM 进行了评估,发现自主生成可执行计划的能力非常有限,只有约 3% 的成功率。
Feb, 2023
介绍了一种新的框架 AgentEval,用于验证大型语言模型(LLM)驱动应用程序的实用性,并提供一套与特定应用程序目标相符的评估标准,以全面评估其实用性。
Feb, 2024