重新思考基于生成的大型语言模型对语义理解的评估

Mar, 2024

重新思考基于生成的大型语言模型对语义理解的评估

Rethinking Generative Large Language Model Evaluation for Semantic Comprehension

Fangyun Wei, Xi Chen, Lin Luo

TL;DR通过对24种模型的11个评估标准进行综合评估，本文首先回顾了当前的评估方法——多项选择题回答（MCQA），并突出了MCQA的一些潜在缺点，接着引入了RWQ-Elo评分系统，通过24种大型语言模型的竞争性对战，模拟现实世界的使用情景，最后分析了系统特点、与先前排行榜的对比，揭示了RWQ-Elo系统的稳定性、注册新模型的可行性和其重塑LLM排行榜的潜力。

Abstract

Despite their sophisticated capabilities, large language models (LLMs) encounter a major hurdle in effective assessment. This paper first revisits the prevalent evaluation method-→

发现论文，激发创造

利用大型语言模型进行多选题答案推断

通过引入自然提示方法，即使用问题和答案选项来训练模型，使模型明确比较各个选项并减少计算成本，同时结合对多个选择符号的绑定能力，这篇论文探讨了GPT-3等大型语言模型在多项选择问题上能力的提升。

Oct, 2022

中大型语言模型零样本闭卷生成问答的评估

本文研究中等规模的语言模型在零-shot生成问答方面的性能，评估结果表明最佳模型的回答率可达46.4％，使用适当的训练数据进行微调比仅仅依靠参数数量更为重要。

May, 2023

对长篇问答评估的关键评估

对长篇答案进行有针对性的评估研究，强调评估多维度因素，发现自动文本生成的评价指标不能预测人类喜好，建议未来的评估中，应该注重准确性、完整性和客观性等多个方面。

May, 2023

多项选择问题回答中大型语言模型的局限性研究

通过分析26个小型开源模型，发现65%的模型不能理解任务，只有4个模型能正确选择答案，其中只有5个模型对选项顺序无关，这些结果对于广泛使用MCQ测试的模型来说相当令人担忧。建议在任何情况下使用MCQ评估LLMs之前要小心谨慎地测试任务理解能力。

Jan, 2024

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

使用MultiQ评估大型语言模型的基础多语言能力

研究表明，尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言，人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题，探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现，在一些语言中，这些模型在回答问题时表现得既忠实又准确，而大多数模型在忠实于回答问题时的准确性更高，但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释，发现了可能存在的相关性，值得进一步研究。

Mar, 2024

多选题是否能够有效地检测LLM的能力？

在这篇论文中，我们评估了九个大语言模型在两种语言（中文和英文）的四个问答数据集上的表现，发现大语言模型在双语的多选题中存在一种顺序敏感性，竞争第一位置的选项更容易被选择，与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法，并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。

Mar, 2024

RepLiQA：用于评估LLMs在未见参考内容上的问答数据集

通过介绍一个名为RepLiQA的新测试数据集，本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题，并通过对各种型号和规模的模型进行基准测试，揭示它们在不同情境条件下的性能差异。

Jun, 2024

论证还是简单的下一个令牌预测？用于对大型语言模型进行压力测试的基准

我们提出了MMLU-SR，这是一个新颖的数据集，旨在通过在问题回答任务中使用修改后的术语挑战大型语言模型（LLMs）的性能来测量其真实的理解能力。尽管最近流行的LLMs在MMLU排行榜上获得了高分，但我们发现在这种替换后模型的性能大幅下降，暗示了其理解能力较差。这个新的基准提供了一个严格测试真实模型理解能力的基准，并向广大科学界提出了挑战。

Jun, 2024

大型语言模型生成上下文相关问题的比较

本研究探讨了大型语言模型（LLMs）在教育环境中自动生成问题的有效性，并比较了三种模型在无微调情况下从大学幻灯片文本中生成问题的能力。研究发现，GPT-3.5和Llama 2-Chat 13B在问题的清晰度和问答对应性方面略优于Flan T5 XXL，特别是GPT-3.5在根据输入答案定制问题方面表现突出。

Jul, 2024