Quiet-STaR: 语言模型能够自我教导在言语之前思考
本文提出了一种名为 Self-Taught Reasoner (STaR) 的技术,该技术利用少量的依据样本和大型没有依据的数据集迭代提高语言模型的理解和应用复杂推理的能力,通过生成推理和反馈微调模型来逐步提升模型的性能,相比于直接预测答案的模型,STaR 在多个数据集上都有显著的性能提升,并与 30 倍大的最先进语言模型的微调性能相媲美,为模型通过自我生成的推理学习提供了可能。
Mar, 2022
一种名为 STaR-GATE 的简单方法,通过奖励语言模型生成有用问题,使其能够自我改进,进而得到个性化响应,结果显示教授语言模型提出更好的问题能够提高个性化响应的质量。
Mar, 2024
通过使用 DPO 判断模型生成的正确和错误解,V-STaR 提出了一种利用自我改进过程中生成的正确和错误解的方法,用于训练验证器,并在推理时从众多候选解中选择一种解,多次运行 V-STaR 可以逐渐提升推理能力和正确性,并在常见代码生成和数学推理基准中相较于现有的自我改进和验证方法提高了 4%至 17%的测试准确率。
Feb, 2024
提出了一个结合了大型语言模型和逻辑编程 Answer Set Programming 的框架 STAR,通过在语言上提取知识并利用 ASP 进行规定驱动的推理,以提高针对需要推理的 NLU 任务的性能和可解释性。
Feb, 2023
该研究提出了一种名为 Self-Polish 的新方法,旨在通过引导模型逐步精炼给定的问题,以提高其问题解决能力,与其他提示方法正交,有效地提高了针对不同数据集的 Few-Shot 学习和 CoT 模型的表现。
May, 2023
本研究探索了利用解释来改善小型语言模型的 few-shot 自我合理性。我们提出了一种新方法 Zero-shot Augmentation of Rationale-Answer pairs (ZARA),通过将可能性判断问题转换为自然语言推理,自动构建了伪平行数据来进行自我训练。实验结果表明,ZARA 在 FEB 基准测试中实现了 SOTA 性能,包括任务准确性和解释度量。此外,我们进行了人类和定量评估,验证了 ZARA 自动识别合理和准确的理由 - 答案对的能力。
May, 2023
通过链式思维微调策略,我们提出了一种强大的后语义思考策略 (Post-Semantic-Thinking, PST),旨在通过在表达方式上不受限制地生成答案,使得小型学生模型能够更好地理解基于语义推理的逻辑。广泛的实验在 12 个推理任务上证明了 PST 的有效性。
Apr, 2024
利用自训练语言模型进行多任务教师 - 学生框架,在有限的任务特定标签和理由下,通过精心选择样本学习信息伪标签示例以及明确合理化预测的特征,显著提高了神经模型的性能,特别在低资源环境中表现出有效性。
Sep, 2021
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
我们引入了一种新颖的框架,LM-Guided CoT,它利用轻量级(即 <1B)语言模型(LM)指导黑盒大型(即> 10B)LM 在推理任务中的工作。具体而言,轻量级 LM 首先为每个输入实例生成理论依据,接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效,只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型,其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明,我们的方法在回答预测准确性方面优于所有基准方法。我们还发现,强化学习有助于模型生成更高质量的理论依据,并提高问答的性能。
Apr, 2024