对大型语言模型评估的调查
该研究综述了大型语言模型的评估方法,并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法,以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣,以促进负责任发展和最大化社会利益,同时最小化潜在风险。
Oct, 2023
最近,大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法,比较了各种标准和评分系统,在多个任务和测试中使用了不同的评估者和评分方法,提出了一个新的数据集 LLMEval,并对 20 个大型语言模型进行了评估,得出了 10 个结论,为将来的语言模型评估提供了一些启示。
Dec, 2023
从预训练语言模型(PLM)到大型语言模型(LLM),自然语言处理(NLP)领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估 LLM 的困难,这篇论文调查了关于 LLM 评估的多篇论文,并总结了 LLM 的四个核心能力,包括推理、知识、可靠性和安全性。在这个能力结构下,相似的任务被合并以反映相应的能力,而新的任务也可以轻松地添加到系统中。最后,给出了关于 LLM 评估未来方向的建议。
Aug, 2023
NLP 中,大型语言模型(LLMs)的成功推动了其显著突破,本文对 LLM 的评估方法进行了全面探索,提供了选择和解读已使用度量标准的见解,并采用最新的生物医学 LLM 进行了这些度量标准的应用比较,旨在为研究人员提供一个实用的指南,推进对这些大型语言模型的理解和应用。
Apr, 2024
大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这些能力所需的资源相当可观,强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果,从模型中心、数据中心和框架中心的角度,将文献进行了分类整理。我们还创建了一个 GitHub 存储库,在这个存储库中收集了本调研中涉及的论文,并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源,帮助他们系统地了解高效大型语言模型的研究进展,并激励他们为这个重要而激动人心的领域做出贡献。
Dec, 2023
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用 LLM 进行 NLG 评估的全面概述,包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的 NLG 评估技术。
Jan, 2024
综述探讨了在医疗保健领域中应用大型语言模型 (LLMs) 的广泛应用和必要的评估,强调了充分利用这些模型提升医疗保健结果的能力的关键验证需求。
Apr, 2024
大型语言模型(LLMs)在各种自然语言处理任务中表现出令人惊讶的性能。最近,结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs,并提供了指导各种医学应用的 LLMs 发展的方法。
Jun, 2024
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023