Jun, 2024

方言?我几乎不了解她:风格控制与刻板印象的挑战

TL;DR大型语言模型(LLMs)在教育和学习应用中的使用不断增加。 研究表明,在控制风格以适应学习者需求的情况下,能够增加理解力,促进包容性,并有助于知识蒸馏。 为了了解当代 LLMs 在风格控制方面的能力和局限性,我们评估了五个最先进的模型:GPT-3.5,GPT-4,GPT-4o,Llama-3 和 Mistral-instruct-7B。 我们观察到第一个任务存在显著的不一致性,模型的性能在适用于一年级学生的任务中平均介于五年级和八年级阅读水平之间,标准偏差高达 27.6。 对于我们的第二个任务,我们观察到性能有了显著的提高,从 0.02 到 0.26。 然而,我们发现即使在参考文本中没有刻板印象的情况下,LLMs 在任务中经常生成文化上不敏感的内容。 我们提供了详细的结果分析和讨论。