大型语言模型作为作业评估器：1000+学生课程中的见解、反馈和挑战

Jul, 2024

大型语言模型作为作业评估器：1000+学生课程中的见解、反馈和挑战

Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course

Cheng-Han Chiang, Wei-Chih Chen, Chun-Yi Kuan, Chienchou Yang, Hung-yi Lee

TL;DR使用大型语言模型（LLMs）进行自动评估已成为自然语言处理研究中的重要评估方法。然而，尚不确定这些基于LLM的评估器是否可以应用于真实的课堂环境中，以评估学生的作业。本实证报告分享了我们如何在一门拥有1028名学生的大学课程中使用GPT-4作为自动作业评估器。根据学生的回答，我们发现当学生可以自由使用基于LLM的评估器时，这些评估器通常是被学生接受的。然而，学生们也指出LLM有时未能遵循评估指示。此外，我们观察到学生可以轻松操纵基于LLM的评估器来输出特定的字符串，从而在不符合作业评分标准的情况下获得高分。基于学生反馈和我们的经验，我们提供了一些关于将基于LLM的评估器纳入未来课堂的建议。

Abstract

Using large language models (LLMs) for automatic evaluation has become an important evaluation method in NLP research. However, it is unclear whether these →

发现论文，激发创造

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在NLP概念上的评估

通过对计算机科学-NLP领域的20个选定主题进行研究和评估，本文证明了GPT-4相对于GPT-3.5在产生简明调查文章方面的成功，并揭示了LLM在特定领域应用中存在的问题和短板。

Aug, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现LLM-based evaluators在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准LMMBar，调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力，发现不同评估器对LMMBar的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

LLMEval：大型语言模型评估初探

最近，大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法，比较了各种标准和评分系统，在多个任务和测试中使用了不同的评估者和评分方法，提出了一个新的数据集LLMEval，并对20个大型语言模型进行了评估，得出了10个结论，为将来的语言模型评估提供了一些启示。

Dec, 2023

当下现状？对多指令语言模型评估的呼吁

通过综合分析来自3个评估基准的39项任务、20种不同的大型语言模型和650万个实例的单提示评估结果的脆弱性，我们提出使用一套多样的提示来评估大型语言模型，为特定的使用场景（例如LLM开发人员与对特定下游任务感兴趣的开发人员）设计定制化的评估指标，从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时，我们实施了这些标准并对多个模型进行了评估，为当前大型语言模型的真正优势和限制提供了深入的见解。

Dec, 2023

PRE: 基于同行评审的大型语言模型评估器

通过同行评审机制，我们提出了一种能够自动评估大型语言模型的新框架，用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验，结果表明使用单一语言模型评估存在偏见，并证明了我们的同行评审机制的有效性。

Jan, 2024

利用大型语言模型扩展AutoTutor的创作能力

使用大型语言模型（LLMs）构建智能辅导系统，结合传统教学方法并实现更好的教学成果。

Feb, 2024

自动评估方法在面向指导型语言模型中的可靠性研究

我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究，发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断，但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。

Feb, 2024

分析大型语言模型在课堂讨论评估中的应用

借助大型语言模型（LLMs）等新的自然语言处理技术，自动评估课堂讨论质量变得越来越可行。本文研究了两种LLMs的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种LLMs的计算效率和预测一致性。结果表明，前述三个因素确实影响了被测试LLMs的性能，并且预测一致性与性能之间存在关系。我们建议采用以LLMs为基础的评估方法，在预测性能、计算效率和一致性方面取得良好平衡。

Jun, 2024