大型语言模型也是优秀的原型常识推理器

Sep, 2023

大型语言模型也是优秀的原型常识推理器

Large Language Models Are Also Good Prototypical Commonsense Reasoners

Chenin Li, Qianglong Chen, Yin Zhang, Yifei Zhang, Hongxiang Yao

TL;DR通过优化任务提示和生成多样化的链式推理和知识，该研究在 ProtoQA 数据集上实现了新的高分，并提供了对大型语言模型的解释，为自然语言处理社区提供了更好的提示开发和更复杂推理任务的潜能探索。

Abstract

commonsense reasoning is a pivotal skill for large language models, yet it presents persistent challenges in specific tasks requiring this competence. Traditional →

commonsense reasoning fine-tuning approaches large language models protoqa dataset interpretablility

发现论文，激发创造

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

大型语言模型作为类比推理者

通过模拟推理为大型语言模型自动生成相关样本或知识的新提示方法在各种推理任务中表现优于零示范的链式思考提示和人工少量示范的链式思考，包括 GSM8K 和 MATH 中的数学问题解决、Codeforces 中的代码生成和 BIG-Bench 中的其他推理任务。

Oct, 2023

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

面向对话 AI 的常识推理：现有技术综述

本论文调查了最近关于常识推理的谈话人工智能研究，列出了相关的训练数据集，并描述了在谈话人工智能中包含常识的主要方法，讨论了用于评估谈话人工智能中常识的基准，最后对两个最先进的开放对话模型 BlenderBot3 和 LaMDA 的常识能力进行了初步观察，并对自然交互产生了负面影响，进一步激发了关于常识推理在谈话人工智能中的研究。

Feb, 2023

大型语言模型是对比推理者

对比提示（CP）显著提高了大语言模型在复杂推理方面的能力。零 - shot 对比提示在算术、常识和符号推理任务上提升了性能，无需手动设计少数训练示例，与当前最先进的 GPT-4 模型相比，在 GSM8K 的准确率从 35.9% 提升至 88.8%，在 AQUA-RAT 的准确率从 41.3% 提升至 62.2%。该方法不仅在大多数算术和常识推理任务上超过了零 - shot CoT 和少数 - shot CoT，还能与现有的提示方法无缝集成，得到改进或相当的结果。

Mar, 2024

生成式知识促进常识推理

通过从语言模型中产生知识并将其作为额外输入用于回答问题，我们开发了一种生成知识提示方法，它不需要针对知识集成的任务特定监督，也不需要访问结构化的知识库，并在四个常识推理任务中提高了大规模、最先进模型的性能。这凸显了大规模语言模型作为提高常识推理的外部知识的灵活来源。

Oct, 2021

大规模生成常识问题解答阐释模型

在常识问题回答的情境下，我们使用更小的语言模型通过更新 elaboration generator 和 answer predictor 两种语言模型来相互影响，最终取得了比同样规模的其他模型更好的性能，且在四个常识问题回答基准测试中，差距越变越小。

Sep, 2022

零样本通识推理的提示工程和校准

在小型语言模型上研究及评估大型语言模型的理解任务，包括多项选择常识推理，结果显示各种策略对不同的模型有利，但联合效果大多为负。

Apr, 2023

更多询问，更深了解：基于大语言模型的增强学习问句在决策制定中的应用

利用领导者 - 追随者双层框架，本文实现了一个完全集成的端到端框架，用于处理复杂的推理任务，并通过引入历史发现为生成合适的问题（提示）提供指导，进而指导行动学习。

Oct, 2023