使用 LLMs 生成具有不同可读性水平的教育材料

Jun, 2024

使用 LLMs 生成具有不同可读性水平的教育材料

Generating Educational Materials with Different Levels of Readability using LLMs

Chieh-Yang Huang, Jing Wei, Ting-Hao 'Kenneth' Huang

TL;DR本研究介绍了分级文本生成任务，旨在将教育材料重写为特定可读性水平同时保持意义不变。通过零 - shot 和少量样本提示，我们评估了 GPT-3.5、LLaMA-2 70B 和 Mixtral 8x7B 在不同可读性水平上生成内容的能力。对 100 份处理过的教育材料进行评估，结果显示少量样本提示显著提高了可读性操作和信息保留的性能。LLaMA-2 70B 在实现所需难度范围方面表现更好，而 GPT-3.5 保持了原始意义。然而，手动检查还揭示出了诸如引入错误信息和不一致的编辑分布等问题。这些发现强调了进一步研究以确保生成的教育内容的质量的需求。

Abstract

This study introduces the leveled-text generation task, aiming to rewrite educational materials to specific readability levels while preserving meaning. We assess the capability of →

leveled-text generation readability levels gpt-3.5 llama-2 70b mixtral 8x7b

发现论文，激发创造

从 Tarzan 到 Tolkien：控制 LLMs 的语言熟练程度用于内容生成

探讨利用大型语言模型（LLMs）控制文本难度的问题，在不完全精通的终端用户环境中（如语言学习者），通过使用新颖框架评估了几种关键方法的效果，包括少样本提示、监督微调和强化学习（RL），使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时，GPT-4 和开源模型之间存在很大的性能差距。然而，我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型，CALM（CEFR 对齐语言模型），在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。

Jun, 2024

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024

LLMs 能评分短答阅读理解题：适用于低收入国家的基础识字能力评估

利用生成型大型语言模型（即 GPT-4）有望可靠地评估短答阅读理解问题，并通过使用新的数据集和自动评分过程提供了改进基础扫盲教育的可能性。

Oct, 2023

针对特定场景的 LLaMa 多任务指令调节：一项关于写作辅助的初步研究

本文研究了使用指令驱动数据 fine-tune 的 LLMa 模型在写作场景下的性能，结果表明持续地使用写作数据对 LLMa 进行微调，可以显著提高它在写作任务上的表现，并为未来 LlMa 在特定场景中的微调提供了洞见。

May, 2023

大型语言模型自动生成与评估阅读理解测试题

使用大型语言模型生成和评估阅读理解测试题目是一个有前途的方法，特别适用于没有足够可用数据的语言。

Apr, 2024

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

LLM 能增强低资源阅读理解数据集吗？机遇和挑战

本文探讨了使用 GPT-4 作为人工标注的替代品来提供低资源阅读理解任务的性能，通过精细调节后的性能和标注成本的对比，这是对 LLMs 作为合成数据增广器用于 QA 系统的第一次分析，强调了这一独特的机遇和挑战，并提供了低资源数据集的增广版本，为生成数据集的评估提供了进一步的基准。

Sep, 2023

利用大型语言模型从材料科学文献中挖掘实验数据

评估先进的大型语言模型（LLMs）在材料科学领域的科学文档中提取结构化信息的能力，并引入了一种比较分析复杂材料表述的新方法，重点是采用化学式的标准化来解决材料科学信息评估中固有的复杂性。LLMs 在指定的两个关键任务中展现出不同的表现：对于命名实体识别（NER）任务，LLMs 未能超越基准模型和规则基模型，对于关系抽取（RE）任务，经过适当策略的 GPT-3.5-Turbo 优于所有模型，而 GPT-4 和 GPT-4-Turbo 在没有经过任何调优的情况下，在仅提供几个示例的情况下展示出出色的推理和关系抽取能力，超越了基准模型。总体而言，结果表明，虽然 LLMs 在连接概念方面展示出相关的推理能力，但对于需要提取复杂领域特定实体（如材料）的任务来说，专门的模型目前是更好的选择。

Jan, 2024

了解您的受众：LLM 是否适应不同的年龄和教育水平？

对四种最先进的大型语言模型（商业和开源）回答科学问题并针对不同年龄组和教育水平的读者群体进行可读性评估，发现它们的可读性存在较大差异。研究结果表明，目前的大型语言模型在适应不同受众时的可读性有待提高，强调了在教育场景中增强大型语言模型的适应性以迎合不同年龄和教育水平的重要性，当前大型语言模型的可读性范围受限，无法很好地适应不同受众，即使在提示的前提下，这限制了它们在教育用途上的潜力。

Dec, 2023

运用 GPT-3 驱动教学代理系统培养儿童的好奇心提问技能

本研究借鉴自然语言处理和大型语言模型相结合的方法，采用自然文本提示来制作课程内容，有效提高了儿童好奇心问题的生成能力，同时发现开放式训练内容更适合培养好奇心问题发现的技能。

Nov, 2022