BadChain：大型语言模型的后门思维链触发

ICLRJan, 2024

BadChain：大型语言模型的后门思维链触发

BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models

Zhen Xiang, Fengqing Jiang, Zidi Xiong, Bhaskar Ramasubramanian, Radha Poovendran...

TL;DR该论文介绍了一种针对大型语言模型的链式思维激励下的后门攻击方法，该方法利用模型的推理能力，通过在模型输出的推理步骤序列中插入后门推理步骤，从而改变当查询激发后门触发器时的最终响应。实验证明，该后门攻击方法对多个大型语言模型具有很高的攻击成功率，并且现有的防御方法对其并不有效。因此，该后门攻击方法对大型语言模型构成严重威胁，并强调了对强大、有效的未来防御方法的迫切需求。

Abstract

large language models (LLMs) are shown to benefit from chain-of-thought (COT) prompting, particularly when tackling tasks that require systematic reasoning processes. On the other hand, COT prompting also poses new vulnerabilities in the form of →

large language models chain-of-thought prompting backdoor attacks reasoning capabilities defenses

发现论文，激发创造

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024

在大型语言模型中通过迭代引导提高思维链路提示

通过使用迭代的引导选择，我们介绍了迭代链式思考（Iter-CoT）方法，该方法可以使大型语言模型（LLM）自主纠正错误，同时选择具有适度难度的挑战性问题作为样本，从而增强 LLM 对于不同难度的推理任务的泛化能力。实验结果表明 Iter-CoT 方法在 11 个数据集上展现出卓越的性能表现。

Apr, 2023

打破链条：大型语言模型能成为捷径推理器

通过在语言模型中引入人类类似的启发式和捷径策略并开发零样本提示策略，以优化 Chain-of-Thought 推理，同时引入 ShortcutQA 数据集用于评估和提升人工智能的推理效率。

Jun, 2024

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

链路审查：针对大型语言模型的后门攻击检测

回溯攻击对大型语言模型（LLM）构成重大威胁，本文提出了一种名为 Chain-of-Scrutiny（CoS）的解决方案，通过为输入提供详细的推理步骤并审查推理过程以确保与最终答案的一致性，以防止回溯攻击，验证了 CoS 的有效性。

Jun, 2024

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

思维的连锁：计划中 CoT 的分析

根据 Blocksworld 的案例研究，通过链式思维问题可以提高大型语言模型的性能，但需要高度问题特定的提示，并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。

May, 2024

大型语言模型的思路链测试

通过对 Chain-of-Thought（CoT）提示方式的研究，我们发现 CoT 的正确操作和数值是 GPT-3 在各种任务中获得准确答案的关键，而错误操作会对性能产生负面影响，这项研究加深了我们对 CoT 提示方式的理解，也提出了有关大语言模型在上下文中学习推理能力的新问题。

Sep, 2023

大型语言模型的思路链主动提示

本文提出了一种新的方法 Active-Prompt，通过任务特定的示例提示来适应 LLMs 的不同任务，通过从特定的查询池中选择最不确定的问题进行注释来确定哪些问题是最重要和有帮助的。经验结果表明了我们提出的方法的优越性，取得了八项复杂推理任务的最新成果。

Feb, 2023

无需提示的逻辑链推理

大规模语言模型的推理能力可通过修改解码过程有效地引出连续推理路径，而不需要手动设计提示技术，这种具备内在推理能力的解码方法优于传统贪婪解码方式。

Feb, 2024