ChainForge:一个用于提示工程和 LLM 假设测试的可视化工具包
探索了基于 LLMs 的多次运行串联(即 chaining)的可视化编程过程,引入一个交互式界面 PromptChainer 来支持用户构建各种机器学习应用的原型。
Mar, 2022
Chain-of-Thought 提示可以增强大型语言模型(LLMs)的推理能力,现有的 CoT 综合方法针对简单推理任务,导致 CoT 提示的质量低且不一致。为了应对这一挑战,我们进行了 CoT 提示的实证研究并引入了 CoTGenius,一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集,并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调,得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题,我们提出了一种步骤级辩论方法,其中多个辩论者讨论每个推理步骤,得出正确答案。大量实验证明,与现有模型相比,我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外,我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。
Mar, 2024
大语言模型领域缺乏描述、比较和改进的数学框架,因此我们提出了 Hex 框架,该框架可以清晰地描述大语言模型研究中的关键术语和概念,如幻觉、对齐、自我验证和思考链。该框架为表征大语言模型、识别其优势和劣势以及整合新发现提供了精确和一致的方法。我们利用 Hex 将思考链推理与思考链提示区分开,并确定了它们等价的条件。这一区分澄清了思考链提示背后的基本假设及其对使用它的方法(如自我验证和提示编程)的影响。我们的目标是为大语言模型提供形式化框架,以帮助研究人员和从业者探索生成型人工智能的新可能性。我们并不声称拥有终极解决方案,而是提供了一个开启新研究方向的工具。我们认为,我们的形式定义和结果对于推动如何构建安全、可靠、公正和健壮的生成型人工智能系统的讨论至关重要,尤其是在医疗保健和软件工程等领域。
Nov, 2023
本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架,通过使用外部知识来编辑推理链以提高其准确性,改善了大语言模型中存在的缺陷,实现了在多个开放型问题回答任务中的准确度提升。
May, 2023
DetToolChain 是一种新颖的提示范式,通过高精度检测先验和一种新的思维链条,实现多模态大语言模型(如 GPT-4V 和 Gemini)的零样本目标检测能力。
Mar, 2024
大规模语言模型的性能可以通过 Prompt Engineering 和 Chain-of-Thought 等提高,本研究从多个方面全面评估了可解释性并引入了一种名为 Self-Entailment-Alignment Chain-of-thought 的简单方法,该方法在多个维度上改进了超过 70%。
Feb, 2024
提出了一个开源评估套件链式思维中心,用于评估大型语言模型在多步推理能力方面的性能,并针对一系列有挑战性的应用场景提供基准测试,目前的结果表明,模型规模与推理能力密切相关,需要更多开源社区的努力来构建更好的基础模型和探索 RLHF。
May, 2023
本文介绍了 Synthetic prompting 方法,该方法利用少量手工示例来提示模型自行生成更多示例,并选择有效的演示文稿以引出更好的推理。在数字、符号和算法推理任务上评估了该方法,并表明其优于现有提示技术。
Feb, 2023
通过 chain of thought prompting 方法,在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能,甚至超过 fine-tuned GPT-3。
Jan, 2022