Jun, 2024

从 Tarzan 到 Tolkien:控制 LLMs 的语言熟练程度用于内容生成

TL;DR探讨利用大型语言模型(LLMs)控制文本难度的问题,在不完全精通的终端用户环境中(如语言学习者),通过使用新颖框架评估了几种关键方法的效果,包括少样本提示、监督微调和强化学习(RL),使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时,GPT-4 和开源模型之间存在很大的性能差距。然而,我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型,CALM(CEFR 对齐语言模型),在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。