llm evaluation | BriefGPT - AI 论文速递

关键词llm evaluation

搜索结果 - 21

推理时去污：重复使用泄露的基准测试用于大型语言模型评估
我们提出了推理时间去污染（ITD）方法，通过检测和重写泄露样本而不改变它们的难度，来降低由于记忆泄露基准测试而导致的性能夸大影响。实验结果表明，ITD 方法在 GSM8K 上可以将夸大的准确性降低 22.9％，在 MMLU 上可以降低 19
PDF13 days ago
BeHonest：大型语言模型诚实度基准测试
这篇论文介绍了一个名为 BeHonest 的新基准，旨在全面评估大型语言模型（LLMs）的诚实性，并强调了 LLMs 诚实性对现实世界的影响和迫切需要可靠方法和基准来确保和评估 LLMs 的诚实性。
PDF14 days ago
同时评估 LLMs 中的多个问题：评估 LLM 能力的新范式
当前的 LLM 评估主要通过包含单个问题的提示进行评估。我们提出多问题评估作为研究 LLM 的多问题处理能力的额外方法。我们在这方面进行了系统研究，通过全面考察 4 个相关类型的任务上的 7 个 LLM，这些任务是基于 6 个分类基准构建的
PDF17 days ago
TCMD：一个用于评估大型语言模型的中医问答数据集
通过引入新的医学问答数据集 TCMD，本文评估了不同领域通用语言模型和医学领域特定语言模型在中医领域的能力，并分析了它们在中医问答任务中的鲁棒性及其存在的不足。希望该数据集进一步促进中医领域通用语言模型的发展。
PDFa month ago
大型语言模型的基准数据污染：调查
大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域，但也引发了一个重大问题，即基准数据污染（BDC）。本文回顾了 LLM 评估中复杂的 BDC 挑战，并探讨了缓解传统基准风险的替代评估方法。
PDFa month ago
从 LLM 基准混合中获得群体智慧的 MixEval
提出了一种新的评估大型语言模型的方法 MixEval，通过混合现有的基准测试以匹配来自网络的查询与现有基准测试中的相似查询，建立了有效和可靠的 LLM 评估标准，进一步构建了 MixEval-Hard，为模型改进提供了更大的空间。
PDFa month ago
PertEval: 揭示权知识能力不变扰动下的 LLMs 真实知识容量
通过 PertEval 工具集，利用知识不变的扰动以人类样式修正技巧从静态基准中生成即席测试样本，精确评估 LLMs 真正的知识能力。通过对六个最先进的 LLMs 进行重新评估，结果显示 LLMs 在原始基准上明显夸大性能，其中包括 GPT
PDFa month ago
ACL语言模型可以通过概率差异进行自我评估
通过证明大型语言模型在回答问题时，如果它们更为熟练，显示更均匀的概率分布，我们启发性地讨论了这个问题。在此基础上，我们提出了一种新的自我评估方法 ProbDiff，用于评估各种语言模型的效能。该方法利用被测试的语言模型计算初始回答与修改版本
PDF2 months ago
COGNET-MD，医学领域中大型语言模型基准的评估框架和数据集
大型语言模型 (LLMs) 在医学诊断中具有辅助医生或模拟医生工作流程的能力，本研究提出了一种用于医学领域中 LLM 评估的认知网络评估工具包 (COGNET-MD)，该工具包包含了一个评分框架以提高对 LLMs 解读医学文本的能力，并伴有
PDF2 months ago
揭示以度量为重点的 LLM 评估：挑战与解决方案
NLP 中，大型语言模型（LLMs）的成功推动了其显著突破，本文对 LLM 的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学 LLM 进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对
PDF3 months ago
E-EVAL：大型语言模型的全面中国 K-12 教育评估基准
通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等
PDF5 months ago
评估基于 LLM 生成的医学图像和症状分析的多模态诊断
该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，
PDF5 months ago
ArcMMLU：大型语言模型的图书馆与信息科学基准
该研究介绍了 ArcMMLU，这是一种专门为中文图书馆与信息科学领域定制的基准测试，它旨在衡量大型语言模型在档案学、数据科学、图书馆学和信息科学四个子领域内的知识和推理能力。通过对超过 6,000 个高质量问题的收集，ArcMMLU 构成了
PDF7 months ago
LLM 知识弃除：任务、方法与挑战
近年来，大型语言模型（LLM）在自然语言处理领域引起了一种新的研究范式。然而，这些模型保留错误或甚至有害知识的潜力带来了恶意应用的风险。为了使这些模型能够广泛应用，解决这个问题并将其转化为纯粹的助手是至关重要的。为此，我们提供了一份关于 L
PDF7 months ago
融合评估器与 LLMs：Fusion-Eval
利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性，超过了其他评估方法，在 LLM 评估领域树立了新的标准。
PDF8 months ago
MEGAVERSE：跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试
通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现，研究发现这两个模型在多个任务上超过了 Llama 模型，尤其是在资源稀缺的语言中，其中 GPT-4 在更多的数据集上优于 PaLM2。然而，为了准确评估非英语语言
PDF8 months ago
使用大型语言模型回答农业考试：GPT-4 作为农艺师助手？
GPT-4 在农业相关问题上表现出色，可通过考试获得农学家的认证，为农民和农业专业人员提供有价值的洞见。
PDF9 months ago
EMNLP大规模语言模型在自动评估中的深入研究
使用大型语言模型（LLMs）评估文本质量近来变得流行。本文分析了 LLM 评估（Chiang 和 Lee，2023）和 G-Eval（Liu et al.，2023），讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。
PDF9 months ago
LawBench：大型语言模型法律知识基准评估
大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。
PDF9 months ago
Do-Not-Answer: 评估 LLMs 中的保障措施的数据集
通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。
PDF10 months ago