Flesch 或 Fumble？评估教学调整的语言模型的可读性标准对齐

Sep, 2023

Flesch 或 Fumble？评估教学调整的语言模型的可读性标准对齐

Flesch or Fumble? Evaluating Readability Standard Alignment of Instruction-Tuned Language Models

Joseph Marvin Imperial, Harish Tayyar Madabushi

TL;DR对各种语言模型在书写故事补充和简化叙述等生成任务中根据标准的提示控制文本可读性进行性能调查的研究结果表明，ChatGPT 等全球认可的模型可能相对不够有效，需要更精细的提示，而像 BLOOMZ 和 FlanT5 这样的开放源码模型则显示出有希望的结果。

Abstract

readability metrics and standards such as flesch kincaid grade level (FKGL) and the common european framework of reference for languages (

readability metrics flesch kincaid grade level common european framework of reference for languages language models generative tasks

发现论文，激发创造

超越 Flesch-Kincaid：基于提示的度量改善教育文本的难度分类

使用大型语言模型（LLMs）对教育应用，如基于对话的教学，进行研究是一个热门话题。本研究引入并评估了基于提示的文本难度度量，该度量方法相比静态度量具有更好的性能，并展示了利用 LLMs 评估文本对不同教育水平的适应的潜力。

May, 2024

从 Tarzan 到 Tolkien：控制 LLMs 的语言熟练程度用于内容生成

探讨利用大型语言模型（LLMs）控制文本难度的问题，在不完全精通的终端用户环境中（如语言学习者），通过使用新颖框架评估了几种关键方法的效果，包括少样本提示、监督微调和强化学习（RL），使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时，GPT-4 和开源模型之间存在很大的性能差距。然而，我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型，CALM（CEFR 对齐语言模型），在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。

Jun, 2024

二语学习者文本可读性评估

该研究针对非英语母语者阅读理解评估的不足，提出了一种利用一般化方法和自学习技术，借助母语数据提高 L2 数据系统表现的模型，并在学习者文本的可读性评估方面取得了精度为 0.797 和相关系数为 0.938 的结果。

Jun, 2019

标准化：根据专家定义的标准对语言模型进行调整以实现内容生成

通过使用领域专家和语言标准，我们引入一种基于检索式学习的框架，用于指导大型语言模型生成符合专家定义标准的内容，并证明了利用标准中提取的知识构件并将其整合到生成过程中，可以有效地指导模型产生更好的标准化内容。

Feb, 2024

显微镜下：菲律宾可读性评估模型的解读

本研究通过全局和局部模型解释的方法，探讨了不同的语言特征对 Filipino 语言基于机器学习的可读性评估模型推理影响的贡献，结果表明使用全局解释所得到的前几个特征比 Spearman 相关性选择的特征表现更好，同时还观察到对于区分阅读难度的局部特征权重边界以及相关影响。

Oct, 2021

使用 LLMs 评估学生的开放式书面答案：基于 RAG 框架，针对 GPT-3.5，GPT-4，Claude-3 和 Mistral-Large 进行

教育工作者评估开放式书面考试答案是一项需要大量精力、一致性和准确性的重要任务。本研究探索了大型语言模型在评估大学生对参考资料提出的开放式问题的答案时的效果，发现 LLMs 的一致性和评分结果存在显著差异。进一步的比较研究对于确定使用 LLMs 进行教育评估的准确性和成本效益至关重要。

May, 2024

基于迁移学习的德语文本可读性评估模型

本研究基于迁移学习提出了一种新的德文文本复杂度评估模型，结果表明该模型优于传统的基于文本语言特征提取的解决方案，最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。

Jul, 2022

评估大型语言模型在生成准确教师回应方面的有效性

通过评估多个基准生成模型在教育对话中提供信息和帮助学生的能力，本研究旨在模拟一个有知识的老师的角色，并发现 GPT-4 在教师 - 学生聊天记录子集上的优越性，测量标准是 BERTScore 和 DialogRPT，同时注意到采样、代表性和对话完整性等数据集特征对微调模型的一般化能力造成了显著挑战，最终强调了对这些生成模型进行评估的需求，其中评估标准不仅依赖于对话连贯性和匹配的语言建模分布，而且还依赖于模型展示教学技巧的能力。

Jul, 2023

LLMs 能评分短答阅读理解题：适用于低收入国家的基础识字能力评估

利用生成型大型语言模型（即 GPT-4）有望可靠地评估短答阅读理解问题，并通过使用新的数据集和自动评分过程提供了改进基础扫盲教育的可能性。

Oct, 2023

使用 LLMs 生成具有不同可读性水平的教育材料

本研究介绍了分级文本生成任务，旨在将教育材料重写为特定可读性水平同时保持意义不变。通过零 - shot 和少量样本提示，我们评估了 GPT-3.5、LLaMA-2 70B 和 Mixtral 8x7B 在不同可读性水平上生成内容的能力。对 100 份处理过的教育材料进行评估，结果显示少量样本提示显著提高了可读性操作和信息保留的性能。LLaMA-2 70B 在实现所需难度范围方面表现更好，而 GPT-3.5 保持了原始意义。然而，手动检查还揭示出了诸如引入错误信息和不一致的编辑分布等问题。这些发现强调了进一步研究以确保生成的教育内容的质量的需求。

Jun, 2024