大型语言模型的多目标语言控制

Jun, 2024

Multi-Objective Linguistic Control of Large Language Models

Dang Nguyen, Jiuhai Chen, Tianyi Zhou

TL;DR通过细调用于现有数据的多控制调优方法，本文提出一种能够精确控制大语言模型输出的多个语言复杂性的方法。实验证明该方法不仅显著改善了大语言模型的多复杂性可控性，还保持甚至提升了响应质量。

Abstract

large language models (LLMs), despite their breakthroughs on many challenging benchmark tasks, lean to generate verbose responses and lack the controllability of output complexity, which is usually preferred by h

large language models controllability linguistic complexities fine-tuning multi-complexity controllability

发现论文，激发创造

从 Tarzan 到 Tolkien：控制 LLMs 的语言熟练程度用于内容生成

探讨利用大型语言模型（LLMs）控制文本难度的问题，在不完全精通的终端用户环境中（如语言学习者），通过使用新颖框架评估了几种关键方法的效果，包括少样本提示、监督微调和强化学习（RL），使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时，GPT-4 和开源模型之间存在很大的性能差距。然而，我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型，CALM（CEFR 对齐语言模型），在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。

Jun, 2024

大型语言模型与可控制的工作记忆

本文研究了大型语言模型的可控性和鲁棒性，并提出了一种新的知识感知微调方法（KAFT），可通过引入反事实和无关语境来增强模型的可控性和鲁棒性。该方法适用于各种模型构架和规模。

Nov, 2022

对大型语言模型在受控生成任务中的评估

大型语言模型在生成任务中的可控性和精细硬性约束方面存在挑战。

Oct, 2023

大型语言模型中的用户可控知识融合：平衡创造性和幻觉

本文提出了一种创新的用户可控机制，通过在 LLM 训练的微调阶段引入一个代表生成回答中对参考知识忠实程度的数值标签，综合利用 ROUGE 得分、Sentence-BERT 嵌入和 LLM 的自我评估得分来度量词汇重叠度和语义相似度，用户可以操作这一数值标签来控制 LLM 对外部知识的依赖程度，通过广泛的实验验证了该方法的适用性和有效性，强调了增强 LLM 的多功能性同时保持创造性和准确性平衡的潜力。

Jul, 2023

大型语言模型摘要能适应多样化的科学沟通目标吗？

研究大型语言模型在科学摘要任务上的可控性问题，通过控制文体特征发现没有经过微调的大型语言模型在 MuP 评审生成任务方面优于人类，同时表明我们可以通过基于关键词的无分类器引导来提高语言模型的可控性，从而在 arXiv 和 PubMed 上实现与强基线的词汇重叠相当的结果。然而，研究结果还表明大型语言模型无法一致生成超过 8 个句子的长摘要，且在生成高度抽象的通俗摘要方面存在有限能力，因此在领域特定应用中，仍然存在着需要昂贵微调才能解决的问题。

Jan, 2024

单语或多语指导调优：哪个更好的羊驼

通过使用多语言调优方法研究基础大型语言模型（LLMs）的代价效益，检验了 LLMs 对于单语和多语环境中查询的有效性，并发现多语调优对于 LLMs 在多语环境中的鲁棒性是关键。研究表明，在有限的计算资源情况下，仅使用有限数据集对多语调优模型进行训练，与为每种语言训练单语模型相比具有相同强大的性能。这些发现可作为扩展语言支持的指南，通过使用约束的计算资源进行指令调优。

Sep, 2023

方言？我几乎不了解她：风格控制与刻板印象的挑战

大型语言模型（LLMs）在教育和学习应用中的使用不断增加。研究表明，在控制风格以适应学习者需求的情况下，能够增加理解力，促进包容性，并有助于知识蒸馏。为了了解当代 LLMs 在风格控制方面的能力和局限性，我们评估了五个最先进的模型：GPT-3.5，GPT-4，GPT-4o，Llama-3 和 Mistral-instruct-7B。我们观察到第一个任务存在显著的不一致性，模型的性能在适用于一年级学生的任务中平均介于五年级和八年级阅读水平之间，标准偏差高达 27.6。对于我们的第二个任务，我们观察到性能有了显著的提高，从 0.02 到 0.26。然而，我们发现即使在参考文本中没有刻板印象的情况下，LLMs 在任务中经常生成文化上不敏感的内容。我们提供了详细的结果分析和讨论。

Jun, 2024

超越指标：评估 LLM 在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

基于大型语言模型的可控指令摘要生成与评估能力基准测试

语言模型在标准的概括基准测试中已经取得了强大的性能，但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估，并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明，指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务，存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum，以促进未来的相关研究。

Nov, 2023

ControlLLM: 通过在图上搜索来增强语言模型的工具

我们介绍了 ControlLLM，这是一个新颖的框架，使得大型语言模型能够利用多模态工具来解决复杂的现实世界任务，通过使用任务分解器、Thoughts-on-Graph（ToG）范式和具备丰富工具箱的执行引擎，在图像、音频和视频处理等多样任务中展示出了超群的准确性、效率和多功能性。

Oct, 2023