自我训练的语言模型用于算术推理
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码-回归-解码机器。
Aug, 2023
该论文研究了大型语言模型在数学问题推理方面的能力,特别关注符号推理在数值问题中的准确性,并通过自提示的方法提高了符号准确性,为模型提供了简洁可验证的推理能力。
Aug, 2023
本论文探讨了基于期望最大化的简单自我训练方法ReST$^{EM}$,在数学问题和编码基准测试中使用PaLM-2模型,细调模型,获得了在模型尺寸上的有利规模效应,并且明显超过仅使用人工数据的细调方法,总体而言,研究结果表明利用反馈进行自我训练可以大大减少对人工生成数据的依赖。
Dec, 2023
在小型语言模型上进行自我纠正训练以提高推理能力,通过使用正确解决方案引导模型对不正确的回答进行批判,并使用生成的批评经过筛选后进行自我纠正理由的监督微调,实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升,与GPT-4基于验证器的强配对时取得了显著的性能提升,但使用弱自验证器来确定何时进行更正存在一定的限制。
Apr, 2024
我们提出了自我改进指导调整方法,通过引导较小语言模型进行自我改进,以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上,将推理能力从较大语言模型传输到较小语言模型,然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明,该方法在领域内外场景均显著优于指导调整方法,并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。
May, 2024
大型语言模型(LLMs)的内在自我纠正能力受到了研究,然而,通过掩盖问题中的关键条件,添加当前答案构建验证问题,并预测条件以验证答案的简单但有效的验证方法,提出了逐步识别和纠正可能的错误响应的迭代验证-纠正框架,命名为ProCo。与自我纠正相比,ProCo在三种推理任务中的性能明显提高。
May, 2024
使用令牌级别监督和期望的累积奖励,我们设计了一种训练方案,以修正确定令牌级别推理路径的不足,并提出了基于减少未来正确性概率的累积奖励的实际制定方式,从而使令牌级别价值模型(TVM)在数学推理基准测试中胜过逐步验证器。
Jul, 2024
本研究解决了语言模型在数学推理任务中对高质量监督微调数据的需求问题,提出将自我训练与直接偏好优化相结合的新方法。研究发现,该方法能够有效提高小规模语言模型的推理能力,同时比依赖大型专有模型更具成本效益和可扩展性。
Jul, 2024
本研究解决了语言模型在推理任务中偶尔出现的错误问题。通过将“错误修正”数据直接引入预训练阶段,本文展示了该方法相比使用无误数据的预训练,能够显著提高语言模型的推理准确性,具有广泛的潜在影响。研究发现,此技术可实现单次自回归而无需多轮提示,从而简化推理过程。
Aug, 2024