大型语言模型的多目标语言控制
探讨利用大型语言模型(LLMs)控制文本难度的问题,在不完全精通的终端用户环境中(如语言学习者),通过使用新颖框架评估了几种关键方法的效果,包括少样本提示、监督微调和强化学习(RL),使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时,GPT-4 和开源模型之间存在很大的性能差距。然而,我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型,CALM(CEFR 对齐语言模型),在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。
Jun, 2024
本文研究了大型语言模型的可控性和鲁棒性,并提出了一种新的知识感知微调方法(KAFT),可通过引入反事实和无关语境来增强模型的可控性和鲁棒性。该方法适用于各种模型构架和规模。
Nov, 2022
本文提出了一种创新的用户可控机制,通过在 LLM 训练的微调阶段引入一个代表生成回答中对参考知识忠实程度的数值标签,综合利用 ROUGE 得分、Sentence-BERT 嵌入和 LLM 的自我评估得分来度量词汇重叠度和语义相似度,用户可以操作这一数值标签来控制 LLM 对外部知识的依赖程度,通过广泛的实验验证了该方法的适用性和有效性,强调了增强 LLM 的多功能性同时保持创造性和准确性平衡的潜力。
Jul, 2023
研究大型语言模型在科学摘要任务上的可控性问题,通过控制文体特征发现没有经过微调的大型语言模型在 MuP 评审生成任务方面优于人类,同时表明我们可以通过基于关键词的无分类器引导来提高语言模型的可控性,从而在 arXiv 和 PubMed 上实现与强基线的词汇重叠相当的结果。然而,研究结果还表明大型语言模型无法一致生成超过 8 个句子的长摘要,且在生成高度抽象的通俗摘要方面存在有限能力,因此在领域特定应用中,仍然存在着需要昂贵微调才能解决的问题。
Jan, 2024
通过使用多语言调优方法研究基础大型语言模型(LLMs)的代价效益,检验了 LLMs 对于单语和多语环境中查询的有效性,并发现多语调优对于 LLMs 在多语环境中的鲁棒性是关键。研究表明,在有限的计算资源情况下,仅使用有限数据集对多语调优模型进行训练,与为每种语言训练单语模型相比具有相同强大的性能。这些发现可作为扩展语言支持的指南,通过使用约束的计算资源进行指令调优。
Sep, 2023
大型语言模型(LLMs)在教育和学习应用中的使用不断增加。 研究表明,在控制风格以适应学习者需求的情况下,能够增加理解力,促进包容性,并有助于知识蒸馏。 为了了解当代 LLMs 在风格控制方面的能力和局限性,我们评估了五个最先进的模型:GPT-3.5,GPT-4,GPT-4o,Llama-3 和 Mistral-instruct-7B。 我们观察到第一个任务存在显著的不一致性,模型的性能在适用于一年级学生的任务中平均介于五年级和八年级阅读水平之间,标准偏差高达 27.6。 对于我们的第二个任务,我们观察到性能有了显著的提高,从 0.02 到 0.26。 然而,我们发现即使在参考文本中没有刻板印象的情况下,LLMs 在任务中经常生成文化上不敏感的内容。 我们提供了详细的结果分析和讨论。
Jun, 2024
评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型(LLMs)的情感分析性能,发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色,与人的一致性高且决策过程透明,但在非英语环境中的文化细微差别方面存在不稳定性,结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。
Jun, 2024
语言模型在标准的概括基准测试中已经取得了强大的性能,但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估,并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明,指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务,存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum,以促进未来的相关研究。
Nov, 2023
我们介绍了 ControlLLM,这是一个新颖的框架,使得大型语言模型能够利用多模态工具来解决复杂的现实世界任务,通过使用任务分解器、Thoughts-on-Graph(ToG)范式和具备丰富工具箱的执行引擎,在图像、音频和视频处理等多样任务中展示出了超群的准确性、效率和多功能性。
Oct, 2023