利用逻辑链思维 (LogiCoT) 的神经符号框架,大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。
Sep, 2023
使用语言模型的内部隐藏状态进行隐式推理,通过垂直在不同层的隐藏状态中进行推理来解决以前无法解决的任务,而无需进行明确的思维链条推理。
Nov, 2023
通过 chain of thought prompting 方法,在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能,甚至超过 fine-tuned GPT-3。
Jan, 2022
本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法,在巨大的语言模型的注释和参数的指导下,训练参数远低于 50B 的较小模型,在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。
Jun, 2023
通过选择性过滤推理程序(SelF-Reasoner)提高了大型语言模型的链式思考推理能力,进而改进了基于 T5 模型的科学问题、Bluetooth 问题和最后一个字母问题的解答质量。
Mar, 2024
我们引入了 Reveal:推理验证评估,这是一个新的数据集,用于在开放域问题回答设置中评估复杂的链式推理的自动验证器,包括语言模型的答案中每个推理步骤的相关性、证据归因和逻辑正确性的全面标签。
Feb, 2024
根据 Blocksworld 的案例研究,通过链式思维问题可以提高大型语言模型的性能,但需要高度问题特定的提示,并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。
May, 2024
本文提出了一种基于连锁式思维提示调整的视觉语言建模方法,经过广泛的实验验证,我们的方法在图像分类任务中的泛化能力更强,在单个数据集之外具有更强的可转移性和更强的领域泛化性能,而且在需要更多推理能力的图像文本检索和视觉问答方面表现更好。
Apr, 2023
本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于 1000 亿参数的模型,实现任务的表现提升,对算术、常识和符号推理数据集效果显著,例如在 PaLM-540B 生成的思考链上进行微调后,T5 XXL 在 GSM8K 的准确率从 8.11%提高至 21.99%。
Dec, 2022
本文提出了一种名为 CANTOR 的数值推理算法,在不预定义解码依赖关系的情况下同时生成多种推理步骤,并比较并链接相关步骤以达到求解问题的目的。
Nov, 2022