基于何种依据?通过结构化的比较推理预测文本偏好
本文提出了一种新的预训练语言模型框架,通过增强其对文本的比较推理能力来提高 NLP 任务的性能,该框架通过收集结构化和非结构化数据设计了三个新的预训练任务,并在比较问答、问句生成和摘要等下游任务中进行了评估,结果显示,我们的预训练框架显著提高了语言模型的比较推理能力,特别是在低资源条件下。此外,本工作还发布了第一个针对文本比较推理的综合基准。
May, 2023
利用生成型大型语言模型的模式识别能力,提出了一种文本缩放方法,该方法利用设计的提示生成概念特定的细分,将文本比较转变为模式识别问题,并使用 Bradley-Terry 模型估计一个规模,以测量 Twitter 上的情感言论。
Oct, 2023
这篇论文提出使用偏好优化方法来提高语言模型的推理性能,通过在思维链中应用这些方法,可以改进语言模型在推理任务中的表现。借助理由追踪数据集,我们提出了两种补充方案:数字损坏和弱语言模型提示。这种方法在 Falcon2-11B 和 Mistral-7B 的 GSM8K、AQuA-RAT 和 ARC 基准测试中提高了准确性,例如在 GSM8K 基准测试中,准确率相对提高了 8.47%,而不需要任何额外的注释。这项工作表明,在推理任务中创建更多的推理追踪数据集将进一步提升语言模型的性能。
Jun, 2024
我们提出了一种新的框架,能够生成更加忠实的合理性解释,并且与基于分类器的黑盒评分系统的性能相匹配。我们通过查询大型语言模型产生思考树,并从每个思考树路径总结中间评估决策,以创建合成的理由数据和理由偏好数据,通过两步训练过程:有监督的微调和偏好优化,利用生成的合成数据来校准语言模型。广泛的实验结果表明,与先前的工作相比,我们的框架在 QWK 分数上提升了 38% 的评估性能,同时生成了更高质量的合理性解释,这一点被人类评估者和语言模型所认可。我们的工作揭示了利用从思考树路径获得的合成偏好数据进行偏好优化的有效性。
Jun, 2024
本文介绍了关于大型语言模型与人类类比推理的一些发现和研究,并提出了一种基于认知心理学的类比结构推断任务以及用于评估类比推理能力的 SCAR 基准测试集,实验结果表明,结合背景知识和解释的 CoT 方法可以显著提高 LLMs 在该任务上的表现。
May, 2023
我们的研究通过彻底研究大型语言模型在图形推理方面的问题,揭示了文本序列对于大型语言模型的空间理解的影响,发现图描述性文本序列显著影响大型语言模型在图形推理中的性能,通过改变图描述性文本序列,我们将大型语言模型的性能从 42.22%提高到 70%。此外,我们评估了大型语言模型在图形大小方面的性能,发现大型语言模型的推理性能并不随着图形大小的增加而单调减少。最后,我们引入了用于评估大型语言模型在不同图形大小上性能的 Scaled Graph Reasoning 基准。
Feb, 2024
我们通过转化问题、多选题和直接文本补全的实验评估,研究了大型语言模型(LLMs)在因果推理、不确定性方面能力的量化,结果显示 LLMs 的表态答案与预测真实信念存在显著差异,提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性,对于 LLMs 能力的评估方法仅提供了部分信息,需要进一步研究其能力的广度和本质。
Jun, 2024
通过生成式大型语言模型和抽象总结以及标准驱动的比较终点,该研究开发了一种能够在不同领域进行高效信息比较的系统,利用语义文本相似性比较生成基于证据的分析,克服了模型推理中的信息上下文和令牌限制的困难,提供了可行的结果并实现了自动化的大规模信息比较。
Apr, 2024
SELF-DISCOVER 是一个通用的框架,使 LLMs 能够自我发现任务内在的推理结构来解决复杂的推理问题,并在 BigBench-Hard、基于代理的推理和数学等具有挑战性的推理基准上,相较于 Chain of Thought (CoT) 的性能提升高达 32%。此外,SELF-DISCOVER 在需要 10-40 倍少得多的推理计算的情况下,超过了 CoT-Self-Consistency 等推理密集型方法 20% 以上。最后,我们证明了自我发现的推理结构在模型族之间是普适的:从 PaLM 2-L 到 GPT-4,从 GPT-4 到 Llama2,并与人类推理模式共享共同点。
Feb, 2024