LLM 能否遵循简单规则？

Nov, 2023

Can LLMs Follow Simple Rules?

Norman Mu, Sarah Chen, Zifan Wang, Sizhe Chen, David Karamardian...

TL;DR大型语言模型在现实世界中的部署责任越来越重，为了能够可靠地指定和约束这些系统的行为，需要评估模型遵循开发者提供的规则的能力以及其面对对抗性输入的脆弱性。为此，我们提出了一种评估大型语言模型规则遵循能力的编程框架，并通过对模型行为的手动探索和对攻击策略的归纳，发现了各种攻击类型和模型的漏洞，从而为研究人员提供了一个挑战性的新环境来探索和防御对大型语言模型的手动和自动攻击。

Abstract

As large language models (LLMs) are deployed with increasing real-world responsibilities, it is important to be able to specify and constrain the behavior of these systems in a reliable manner. Model developers may wish to set explicit rules for the model, such as "do not generate abus

large language models rule-following language evaluation scenarios adversarial inputs attack strategies llms vulnerabilities

发现论文，激发创造

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

LLMs 是否能够运用推理规则？用于压力测试和改善 LLMs 的逻辑支撑

通过基于逻辑搭建的推理规则生成框架 ULgogic 对 GPT 系列模型进行分析，揭示了它们在逻辑理解方面与人类表现相比存在的显著差距，尤其是在具有某种偏见模式的复合和结构复杂规则方面；同时，我们采用这些规则构建了一个小规模推理引擎，用于灵活地生成规则并增强下游推理能力，经过多评估者评估，我们的推理引擎证明在生成准确、复杂和抽象的结论和前提方面非常有效，从而为增强大型语言模型的逻辑推理能力提供了启示。

Feb, 2024

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准 LMMBar，调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力，发现不同评估器对 LMMBar 的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小 LLM 和人类评估器之间的差距。通过 LLMBar 希望提供对 LLM 评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

谨言慎行：大型语言模型与内容管理

大型语言模型在内容审核中表现出的强大能力备受关注，本研究通过评估一系列商用的现代语言模型（GPT-3，GPT-3.5，GPT-4），在基于规则的社区审核和毒性内容检测两个常见任务中发现，这些模型在许多社区的审核上表现出很高的准确性和精确度，并且超越现有的商用毒性分类器，同时也指出了在毒性检测任务上模型规模增加对性能的边际益处，暗示了大型语言模型在毒性检测任务上可能达到了性能瓶颈。未来的工作可以继续研究大型语言模型和内容审核的发展方向。

Sep, 2023

让大型语言模型能够从规则中学习

通过从详细的规则中提取知识并显式编码到大型语言模型的参数中，我们提出了一种新的学习范式，即规则蒸馏，并证明这种方法在样本大小和泛化能力方面比基于示例的学习更加高效。

Nov, 2023

你真的跟随我吗？评估大型语言模型的稳健性的对抗性指令

通过实验，我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性，并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。

Aug, 2023

关于 LLMs 的隐含风险评估：关于鲁棒性，一致性和可信度的实证研究

本研究使用自动化工作流程，对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询，得出了 LLM 在稳健性、一致性和可信度方面存在的问题，提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。

May, 2023

商业中 LLM 益处的实际检验

大型语言模型（LLMs）在理解和生成任务方面取得了显著的表现，但其在偏见、上下文理解和对提示的敏感性方面存在限制，因此对其在实际应用中的准备性产生了担忧。本文通过对四个可访问的 LLMs 使用真实世界数据进行的实验，深入研究了 LLMs 在业务流程中的实用性和准备性。研究结果对希望利用生成式人工智能的组织具有重大影响，并为未来的研究方向提供了宝贵的见解。据我们所知，这是第一项将 LLMs 应用于核心业务运营和挑战的定量研究。

Jun, 2024

超越指标：评估 LLM 在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024