从 Tarzan 到 Tolkien：控制 LLMs 的语言熟练程度用于内容生成

Jun, 2024

从 Tarzan 到 Tolkien：控制 LLMs 的语言熟练程度用于内容生成

From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation

Ali Malik, Stephen Mayhew, Chris Piech, Klinton Bicknell

TL;DR探讨利用大型语言模型（LLMs）控制文本难度的问题，在不完全精通的终端用户环境中（如语言学习者），通过使用新颖框架评估了几种关键方法的效果，包括少样本提示、监督微调和强化学习（RL），使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时，GPT-4 和开源模型之间存在很大的性能差距。然而，我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型，CALM（CEFR 对齐语言模型），在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。

Abstract

We study the problem of controlling the difficulty level of text generated by large language models (LLMs) for contexts where end-users are not fully proficient, such as language learners. Using a novel framework, we evaluate the effectiveness of several key approaches for this task, i

large language models difficulty level control few-shot prompting supervised finetuning reinforcement learning

发现论文，激发创造

方言？我几乎不了解她：风格控制与刻板印象的挑战

大型语言模型（LLMs）在教育和学习应用中的使用不断增加。研究表明，在控制风格以适应学习者需求的情况下，能够增加理解力，促进包容性，并有助于知识蒸馏。为了了解当代 LLMs 在风格控制方面的能力和局限性，我们评估了五个最先进的模型：GPT-3.5，GPT-4，GPT-4o，Llama-3 和 Mistral-instruct-7B。我们观察到第一个任务存在显著的不一致性，模型的性能在适用于一年级学生的任务中平均介于五年级和八年级阅读水平之间，标准偏差高达 27.6。对于我们的第二个任务，我们观察到性能有了显著的提高，从 0.02 到 0.26。然而，我们发现即使在参考文本中没有刻板印象的情况下，LLMs 在任务中经常生成文化上不敏感的内容。我们提供了详细的结果分析和讨论。

Jun, 2024

使用 LLMs 生成具有不同可读性水平的教育材料

本研究介绍了分级文本生成任务，旨在将教育材料重写为特定可读性水平同时保持意义不变。通过零 - shot 和少量样本提示，我们评估了 GPT-3.5、LLaMA-2 70B 和 Mixtral 8x7B 在不同可读性水平上生成内容的能力。对 100 份处理过的教育材料进行评估，结果显示少量样本提示显著提高了可读性操作和信息保留的性能。LLaMA-2 70B 在实现所需难度范围方面表现更好，而 GPT-3.5 保持了原始意义。然而，手动检查还揭示出了诸如引入错误信息和不一致的编辑分布等问题。这些发现强调了进一步研究以确保生成的教育内容的质量的需求。

Jun, 2024

大型语言模型的多目标语言控制

通过细调用于现有数据的多控制调优方法，本文提出一种能够精确控制大语言模型输出的多个语言复杂性的方法。实验证明该方法不仅显著改善了大语言模型的多复杂性可控性，还保持甚至提升了响应质量。

Jun, 2024

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024

语言模型中的循环学习：数据优化方法在文本游戏中进行推荐行为的学习

通过更新大型语言模型（LLMs）在基于文本游戏学习过程中的使用以减少对人类注释游戏的依赖性，提高 LLMs 的性能，并研究了从游戏中训练的模型到其他游戏的可迁移性。

Nov, 2023

在教育和评估应用中探索提示式大型语言模型的能力

利用大语言模型在现代教育领域创新的机会，通过研究提问型大语言模型、语法错误解释和人力资源面试评估，揭示了大语言模型在改变教育实践中的潜力和限制。

May, 2024

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

测试在不同级别的提示特异性下进行的代码生成的 LLMs

评估了各种 LLM 在生成 Python 代码方面的性能，揭示了创建准确的 Python 函数的理想提示策略。

Nov, 2023

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023