评估大型语言模型中的排除推理过程的难度
在多项选择推理任务中,语言模型借鉴了人类首先排除错误选项的两步策略以提高性能,通过引入排除过程(POE)的两步评分方法,实验证明 POE 在逻辑推理任务上表现出色,并适用于 ChatGPT 这样的大型语言模型。
Oct, 2023
通过对话引导的思维链技术(DialCoT)在小型语言模型中有效提升推理能力,采用 PPO 算法优化模型的推理路径选择,实验结果显示与其他竞争方法相比显著提升性能。
Oct, 2023
通过对推理链和性能的关系的研究,我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE,该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分(PDS)框架,充分利用多个推理链的信息,相比答案检查基准线,平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1%。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。
Feb, 2024
通过引入一种独特的提示策略,名为教育思维链(PedCoT),该研究论文提出了一种有效识别推理错误的方法,并在数学问题中取得了显著优于基线模型的结果。
May, 2024
本研究发现 Large Language Models 的 Chain-of-Thought Reasoning (思维的串联过程)能够提供合理的解释,但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识,这可能导致人们过度信任 LLMs 的预测结果,因此有必要针对模型解释的忠实度进行有针对性的评估和改进,特别是在社会偏见问题方面。
May, 2023
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023
通过选择性过滤推理程序(SelF-Reasoner)提高了大型语言模型的链式思考推理能力,进而改进了基于 T5 模型的科学问题、Bluetooth 问题和最后一个字母问题的解答质量。
Mar, 2024
通过优化竞争产生的 Chain-of-Thought (CoT) 候选项之间的优先级,我们开发了一种迭代方法,通过优化导致正确答案的推理步骤的胜败来改进推理任务,这种方法在多个任务上取得了优于其他不使用其他数据集的 Llama-2 模型的性能。
Apr, 2024
大型语言模型在逐步推理指令(例如思维链提示)方面具有优势。在此基础上,它们在执行连贯思维推理方面的鲁棒性是一个值得探究的问题。本研究检验大型语言模型在逐步推理能力方面,重点关注难以处理的核心语言现象 —— 否定。通过引入几个受控设置(例如处理虚构实体时的推理)来评估模型的逻辑推理能力。我们观察到当进行逐步推理时,许多现代大型语言模型在处理否定词(例如 plausible -> implausible)时不具有鲁棒性,研究结果凸显了每个大型语言模型家族中独特的局限性。
Oct, 2023
本研究通过一种自洽的跨语言提示机制,提出了一种跨语言多步推理方法,可以在不同语言中实现多步推理路径,从而达到解决复杂推理任务的目的,并在实验评估中表现出比现有提示方法更优的性能。
Nov, 2023