对话链条思路精炼：注重常识的对话代理

EMNLPOct, 2023

对话链条思路精炼：注重常识的对话代理

Dialogue Chain-of-Thought Distillation for Commonsense-aware Conversational Agents

Hyungjoo Chae, Yongho Song, Kai Tzu-iunn Ong, Taeyoon Kwon, Minjin Kim...

TL;DR提出了一种知识蒸馏框架，利用大型语言模型作为不可靠的教师，并通过对齐过滤器选择性地提炼一致和有帮助的合理性，以实现对话语境中的多跳推理。进一步提出了 DOCTOR，一种可靠的 DialOgue Chain-of-ThOught Reasoner，为响应生成提供可靠的逻辑基础，通过广泛的实验表明，使用 DOCTOR 提供的高质量合理性显著提高了对话代理的响应质量。

Abstract

Human-like chatbots necessitate the use of commonsense reasoning in order to effectively comprehend and respond to implicit information present within conversations. Achieving such coherence and informativeness i

chatbots commonsense reasoning dialogue context knowledge distillation framework dialogue chain-of-thought reasoner

发现论文，激发创造

SCOTT: 自洽思维串讲压缩

提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的 CoT 解释。

May, 2023

DDCoT: 多模式语言模型中的责任区分思维链提示

AI 系统的一个长期目标是像人类一样进行复杂的多模态推理。最近，大型语言模型（LLMs）通过利用思维链（CoT）在仅使用语言模态上取得了显著的多步推理进展，然而，将这些进展应用于多模态情境引入了更高的挑战，其中包括但不限于对劳动密集型注释的不切实际需求以及在灵活性、泛化性和可解释性方面的限制。为了在多模态中唤起 CoT 推理，该研究首先对多模态提出的这些挑战进行了深入分析，并提出了两个关键见解：“保持批判性思维” 和 “让每个人发挥各自的作用” 在多模态 CoT 推理中。此外，该研究提出了一种新颖的 DDCoT 提示，通过负空间提示保持临界态度，并通过首先将 LLMs 的推理责任划分为推理和识别，然后将视觉模型的视觉识别能力整合到联合推理过程中来融入多模态推理。DDCoT 生成的基于理性的解释不仅改进了大型和小型语言模型在零样本提示和微调学习中的推理能力，显著超过了最先进的方法，而且还展示出令人印象深刻的泛化性和可解释性。

Oct, 2023

DialCoT 满足 PPO：在较小的语言模型中进行推理路径的分解与探索

通过对话引导的思维链技术（DialCoT）在小型语言模型中有效提升推理能力，采用 PPO 算法优化模型的推理路径选择，实验结果显示与其他竞争方法相比显著提升性能。

Oct, 2023

通过思维链推理在大型语言模型中注入销售人员的对话策略

SalesBot 2.0 通过使用大型语言模型（LLMs）的常识知识和链式推理（CoT reasoning）训练销售代理人，并结合改进后的数据集，实现了对话策略的控制、提高了连贯性和减少了攻击性，从而促进销售 - 顾客互动过程的更好模型学习。

Apr, 2024

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

多模态命名实体和多模态关系抽取的思维链提示蒸馏

本研究探索了如何通过生成 “思考链” 从大型语言模型中提取出推理能力并综合常识推理能力，进而实现条件提示蒸馏，提高学生模型在 MNER 和 MRE 数据集上的效果。

Jun, 2023

验证和编辑：一种知识增强的思维链框架

本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架，通过使用外部知识来编辑推理链以提高其准确性，改善了大语言模型中存在的缺陷，实现了在多个开放型问题回答任务中的准确度提升。

May, 2023

符号链式思考精华提炼：小型模型也能逐步 “思考

本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法，在巨大的语言模型的注释和参数的指导下，训练参数远低于 50B 的较小模型，在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。

Jun, 2023

ThoughtSource：大型语言模型推理数据的中心枢纽

ThoughtSource 是一个 meta-dataset 和软件库，用于处理语言模型在复杂推理方面的局限性，旨在提高未来人工智能系统的质量，通过促进 CoT 的定性理解，实现经验评估并提供培训数据。

Jan, 2023