DetToolChain:一种释放 MLLM 检测能力的新提示范式
通过使用自动探索的 CoT prompt 对多个 LLMs 进行无监督语言生成,我们发现将该 prompt 应用于最新的 GPT-4 模型是最优的。
May, 2023
Chain-of-Thought 提示可以增强大型语言模型(LLMs)的推理能力,现有的 CoT 综合方法针对简单推理任务,导致 CoT 提示的质量低且不一致。为了应对这一挑战,我们进行了 CoT 提示的实证研究并引入了 CoTGenius,一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集,并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调,得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题,我们提出了一种步骤级辩论方法,其中多个辩论者讨论每个推理步骤,得出正确答案。大量实验证明,与现有模型相比,我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外,我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。
Mar, 2024
该论文介绍了一种针对大型语言模型的链式思维激励下的后门攻击方法,该方法利用模型的推理能力,通过在模型输出的推理步骤序列中插入后门推理步骤,从而改变当查询激发后门触发器时的最终响应。实验证明,该后门攻击方法对多个大型语言模型具有很高的攻击成功率,并且现有的防御方法对其并不有效。因此,该后门攻击方法对大型语言模型构成严重威胁,并强调了对强大、有效的未来防御方法的迫切需求。
Jan, 2024
本论文提出一种基于链式推理的自动提问方法 Auto-CoT,通过采样具有多样性的问题并生成推理链来构建演示,在十项公共基准推理任务中,Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。
Oct, 2022
我们的研究采用大型语言模型 (LLMs) 和几种提示技术解决自然语言理解测试中提供的谜题数据集。通过零瞄和少瞄提示,相较于开源模型,我们的专有模型表现出合理的结果。通过分步提示的迭代提示方法,我们进一步改进了结果。通过使用一系列分步提示,我们在字谜题子任务中获得第二名,在句子谜题子任务中获得第 13 名。提示型大型语言模型表现出较强的性能,证明了当提供思维过程分解时,它们具备处理复杂推理的能力。我们的工作揭示了分步解释性提示如何释放大型模型参数中更多的知识。
Mar, 2024
大语言模型通过应用无需预先训练的思维链式促进方法展示了卓越的表现,并展示了出色的推理能力。本文介绍了一种新的零样本促进方法,利用进化算法为大语言模型动态生成多样的促进方式,通过选择适合的促进方式提高模型的理解能力。详细实验结果表明,相较于当前的零样本推理方法,在 GPT-3.5-turbo 和 GPT-4 上,我们的方法表现出更优越的性能。此外,深入的分析实验突显了本方法在各种推理任务中的适应性和有效性。
Feb, 2024
本篇论文提出一种新方法名为 CoD,通过使用多语言词典来引出 LLMs 的翻译能力,从而提高大规模语言模型在多语言神经机器翻译中的表现,实验表明,CoD 可使得 ChatGPT 在 FLORES-200 全 devtest 集上英塞语察里洛文翻译的 ChrF++ 分数由 3.08 提高至 42.63,优于为低资源语言提供少量演示的方法。
May, 2023
通过使用 “Let's think step by step” 等输入提示来生成排列步骤,Plan-and-Solve (PS) Prompting 解决了 Zero-shot-CoT 存在的缺失计算错误,缺失步骤错误和语义误解错误,是一种有效的零次提示策略,能够在数学推理问题上与 8-shot CoT 提示相媲美,并优于 Zero-shot-CoT 和 Zero-shot-Program-of-Thought 提示。
May, 2023
本文提出了一种使用 Automate-CoT 自动扩展和选择合理链来推动 CoT 的方法,该方法通过构建候选池从标签生成的机器理性链中选择多个理性链的最佳组合,以推进大型语言模型的推理能力,并在算术推理、常识推理、符号推理和非推理任务中取得了最先进的结果。
Feb, 2023
本文通过构建 6 个涵盖用户状态的(包括人格、情绪和心理)中英数据集,探索了 CoT 方式来帮助大型语言模型进行推理和规划,以提供更个性化和优质的用户体验,并提出了一种新颖的演示选择策略,使用中间推理的语义相似性进行,实验证明了我们的方法相对标准提示在所有数据集上均表现出更好的有效性和稳健性。
May, 2023