大型语言模型生成上下文相关问题的比较

Jul, 2024

大型语言模型生成上下文相关问题的比较

Comparison of Large Language Models for Generating Contextually Relevant Questions

Ivo Lodovico Molina, Valdemar Švábenský, Tsubasa Minematsu, Li Chen, Fumiya Okubo...

TL;DR本研究探讨了大型语言模型（LLMs）在教育环境中自动生成问题的有效性，并比较了三种模型在无微调情况下从大学幻灯片文本中生成问题的能力。研究发现，GPT-3.5和Llama 2-Chat 13B在问题的清晰度和问答对应性方面略优于Flan T5 XXL，特别是GPT-3.5在根据输入答案定制问题方面表现突出。

Abstract

This study explores the effectiveness of Large Language Models (LLMs) for Automatic Question Generation in educational settings. Three LLMs are compared in their ability to create questions from university slide

发现论文，激发创造

从预训练LLMs中更好地选择样本：以生成问题为例的案例研究

本文提出了两种基于提示的方法，以选择自然语言生成模型生成的高质量问题，旨在解决多样性提高与模型选择的问题。经过自动化和人工评估，结果表明，与贪婪算法相比，我们的方法能够有效地选择更高质量的问题。

Sep, 2022

中大型语言模型零样本闭卷生成问答的评估

本文研究中等规模的语言模型在零-shot生成问答方面的性能，评估结果表明最佳模型的回答率可达46.4％，使用适当的训练数据进行微调比仅仅依靠参数数量更为重要。

May, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在NLP概念上的评估

通过对计算机科学-NLP领域的20个选定主题进行研究和评估，本文证明了GPT-4相对于GPT-3.5在产生简明调查文章方面的成功，并揭示了LLM在特定领域应用中存在的问题和短板。

Aug, 2023

大规模语言模型的多语言文档问答评估方法

通过使用大型语言模型，本文研究了这些模型的多语言能力。初步结果表明，将原始语言环境、问题和答案翻译成高资源语言会产生最佳结果。

Feb, 2024

重新思考基于生成的大型语言模型对语义理解的评估

通过对24种模型的11个评估标准进行综合评估，本文首先回顾了当前的评估方法——多项选择题回答（MCQA），并突出了MCQA的一些潜在缺点，接着引入了RWQ-Elo评分系统，通过24种大型语言模型的竞争性对战，模拟现实世界的使用情景，最后分析了系统特点、与先前排行榜的对比，揭示了RWQ-Elo系统的稳定性、注册新模型的可行性和其重塑LLM排行榜的潜力。

Mar, 2024

在教育和评估应用中探索提示式大型语言模型的能力

利用大语言模型在现代教育领域创新的机会，通过研究提问型大语言模型、语法错误解释和人力资源面试评估，揭示了大语言模型在改变教育实践中的潜力和限制。

May, 2024

大型语言模型作为虚拟导师的使用综述

利用Transformer架构的大型语言模型在教育领域引起了广泛关注，主要应用包括生成和评估教育材料、自动问题生成等，其中GTP-3和BERT是最受欢迎的模型。

May, 2024

使用大型语言模型在不同布卢姆技能水平下自动生成教育问题：策略与评估

该研究针对教育者在生成高质量教育问题时面临的挑战，提出了一种利用大型语言模型（LLMs）实现自动化生成教育问题的新方法。研究表明，采用适当的信息提示，LLMs能够生成符合不同认知水平的相关且高质量的问题，同时表现出LLMs在能力上的显著差异，并且发现自动评估无法与人工评估相媲美。

Aug, 2024

Dr.学院：评估大型语言模型在教育中提问能力的基准

该研究解决了大型语言模型（LLMs）在教学能力，特别是提问能力方面的缺乏评价。通过建立基准并利用安德森与克拉斯沃尔分类法，研究探索了LLMs生成教育问题的能力。结果表明，GPT-4在一般、文科和科学课程教学中表现出显著潜力，而Claude2更适合作为跨学科教师。

Aug, 2024

生成式人工智能时代学习的未来：大型语言模型的自动问题生成与评估

本研究探讨了大型语言模型（LLMs）在教育领域中自动问题生成和答案评估的转型潜力，填补了高效学习工具的空白。通过解析LLMs的工作机制以及创新的提示技术，研究展示了如何生成多样化和相关性强的问题来适应学习需求，同时实现了准确的答案评估和反馈，具有显著的教育提升潜力。

Oct, 2024