探索大型语言模型在通过思维链路提示进行反思评估方法中的效力

Sep, 2023

探索大型语言模型在通过思维链路提示进行反思评估方法中的效力

Investigating the Efficacy of Large Language Models in Reflective Assessment Methods through Chain of Thoughts Prompting

PDF

Baphumelele Masikisiki, Vukosi Marivate, Yvette Hlope

TL;DR通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分，结果显示 Llama-7b 表现最差，均方误差最高，而 ChatGPT 表现出色，科恩卡帕分数达到 0.53。此外，所选模型均优先考虑用户隐私，允许用户删除自己进行的会话。

Abstract

large language models, such as generative pre-trained transformer 3 (aka. GPT-3), have been developed to understand language through the analysis of extensive text data, allowing them to identify patterns and con

large language models generative pre-trained transformer 3 chain of thought reflective essays cot prompting

发现论文，激发创造

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024

大型语言模型的思路链测试

通过对 Chain-of-Thought（CoT）提示方式的研究，我们发现 CoT 的正确操作和数值是 GPT-3 在各种任务中获得准确答案的关键，而错误操作会对性能产生负面影响，这项研究加深了我们对 CoT 提示方式的理解，也提出了有关大语言模型在上下文中学习推理能力的新问题。

Sep, 2023

应用大型语言模型和思维链路实现自动评分

该研究通过应用大型语言模型（LLMs），特别是 GPT-3.5 和 GPT-4，结合思维链（CoT），对学生科学评估中的写作回答进行自动评分的应用进行了调查，并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明，GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能，并且使用 CoT 能够提高评分准确性，特别是当与项目描述和评分标准一起使用时。

Nov, 2023

R$^3$ 提示：在嘈杂的语境下为大型语言模型的思路链进行检查、改述和解决

通过使用 R3 提示方法来处理嘈杂语境下的 CoT 推理，能够提高 LLM 在推理任务中的准确性。与现有的 CoT 提示方法相比，R3 提示方法在噪声环境下显著优越，通过与 GPT-3.5-turbo 的实验观察，平均推理准确性提高了 3.7％。该方法在解决噪声环境下 LLM 的推理任务时表现出了强大的鲁棒性和普适性。

Oct, 2023

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

何时需要为 ChatGPT 启用思维链提示？

通过使用 Chain-of-Thought 提示，多达数步的复杂推理可以被提取。然而，在 ChatGPT 上，这种提示对于某些任务不再有效。这反映了指令过度拟合 / 偏见的潜在风险，这种情况在训练 LLMs 时变得更为普遍。

Apr, 2023

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

自动发现的链式思维提示适用于新模型和数据集

通过使用自动探索的 CoT prompt 对多个 LLMs 进行无监督语言生成，我们发现将该 prompt 应用于最新的 GPT-4 模型是最优的。

May, 2023

CodeCoT 及其进展：学习像开发者一样编程和测试

采用自我审查和连续推导的方法，我们提出了一种名为 Code Chain-of-Thought（CodeCoT）的新策略，通过辅助 LLM 模型生成代码和改进输出，从而显著提高了代码生成的准确性。

Aug, 2023