- BAMO 在 SemEval-2024 任务 9 中的表现:BRAINTEASER: 一个违背常识的新任务
该研究使用语言模型如 BERT 和 RoBERTa Large 来解决 SemEval 2024 BRAINTEASER 任务,通过使用 Chain of Thought 和 zero-shot learning 的方法,最终在句子难题子任 - ACLLLM 中的算术推理:Prolog 生成与排列
使用大型语言模型来生成 Prolog 程序以解决数学问题,在 GSM8K 基准测试中,我们的 Prolog 算术问题解决方法在三个不同的大型语言模型中胜过了 Chain of Thought。我们提出对真值谓词进行排列组合,以通过数据增强方 - 语言模型中忠实与不忠实推理的分离
大型语言模型(LLMs)在输出答案之前生成思维链推理文本可以提高其在下游任务中的性能。我们的研究调查了 LLMs 在思维链中出现错误时如何还原并最终得出正确答案,我们发现存在思维链不忠实的证据,但我们也找到了许多明确的忠实错误还原行为。我们 - COLING通过软负采样增强多模态思维链中的语义
利用软负采样的方法减轻多模式 CoT 中幻觉问题的研究提出了一种理性生成方法(SNSE-CoT)。在传统的对比学习框架中引入了五种方法来生成高度相似但具有不同语义的软负样本,并通过双向边界损失将其应用于多模式 CoT 中,对 Science - 思维的连锁:计划中 CoT 的分析
根据 Blocksworld 的案例研究,通过链式思维问题可以提高大型语言模型的性能,但需要高度问题特定的提示,并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。
- 图形推理:基于 LLM 的半开放关系提取
本研究通过利用 GPT-3.5 中的链式思维和图形推理技术,以及详细的例子推理,全面探索了关系抽取,并引入了一种新颖的图形推理方法,将关系抽取拆分为连续的子任务,提高了处理复杂关系数据的精确性和适应性,实验证明了我们方法的有效性。
- 带思维链的 LLMs 是非因果推理者
该研究探讨了大型语言模型中思维链(CoT)在推理中的作用,通过因果分析发现模型与人类推理过程之间存在差异,并揭示了模型中影响因果结构的因素。
- ICLR思维链串联变压器解决本质上串行的问题
通过表达能力的角度,本文从理论上解释了串行思维链(CoT)对仅解码器的变压器的增强作用,通过对中间步骤(即 CoT)的生成模型进行指导,可以显著提高大型语言模型在算术和符号推理任务上的准确性。
- 通过算法思维链条理解 LLM 训练数据中的噪音效应
这篇论文研究了大型语言模型在预训练和微调过程中的噪声影响,通过引入可定制的有噪执行轨迹生成框架和定义静态噪声和动态噪声的方式,发现微调模型对高强度的静态噪声有很强的抗扰能力,但对低强度的动态噪声则表现较差,与此同时,少样本提示模型对静态噪声 - 推理步长对大型语言模型的影响
通过一系列实验,研究发现链式思维(CoT)在大型语言模型(LLMs)的推理能力提升中起到重要作用,推理步骤的长度与 CoT 的有效性之间的相关性还不完全清楚,本研究对此进行了探索,并得出了以下主要发现:1. 增加问题中推理步骤的长度能显著提 - 大型语言模型的检索增强多模态思维链推理
使用检索机制动态自动选择基于跨模态相似性的示例,以提升多模态推理中大型语言模型的性能。对各类示例进行分组并分别从不同组中检索示例,以增加示例的多样性。通过一系列实验,我们证明了我们的方法在多模态推理任务中取得了显著的性能改进。
- 对比的思维链路提示
我们提出了对比思维链来增强语言模型推理,通过提供有效和无效的推理示范,引导模型逐步推理并减少推理错误。在推理基准测试中,对比思维链能够作为思维链提示的一种普遍增强。
- DDCoT: 多模式语言模型中的责任区分思维链提示
AI 系统的一个长期目标是像人类一样进行复杂的多模态推理。最近,大型语言模型(LLMs)通过利用思维链(CoT)在仅使用语言模态上取得了显著的多步推理进展,然而,将这些进展应用于多模态情境引入了更高的挑战,其中包括但不限于对劳动密集型注释的 - 探索大型语言模型在通过思维链路提示进行反思评估方法中的效力
通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分,结果显示 Llama-7b 表现最差,均方误差最高,而 ChatGPT 表现出色,科恩卡帕分数达到 0.53。此外,所选模型均优先考虑用户隐私,允许用户删除自己进行的会 - ACL思维递归:一种利用分治策略的多环境语言模型推理方法
提出了一种名为 RoT 的推理框架,通过引入多个特殊标记来激活模型输出,以便将问题分成多个上下文,从而极大地改善了语言模型的推理能力,能够解决由数十万个标记组成的问题。
- 多数原则:自洽性更好的修补
本文介绍了将基于自我一致性的技术应用于程序修复,并使用提交日志作为解释性示例输入来实现此目标,该方法在 MODIT 数据集上取得了领先的效果。
- 聊天 GPT 在对话中的话语分析潜力:实证研究
本研究探讨了 ChatGPT 在话语语篇分析中的能力,特别是话题分割、话语关系识别和话语分析三个任务的能力。结合创新的思维链(COT)方法,发现 ChatGPT 对于话题分割有较好的表现,但在话语关系识别和话语分析等较难的任务中有待提高。
- 视觉语言模型中思维链路提示调优
本文提出了一种基于连锁式思维提示调整的视觉语言建模方法,经过广泛的实验验证,我们的方法在图像分类任务中的泛化能力更强,在单个数据集之外具有更强的可转移性和更强的领域泛化性能,而且在需要更多推理能力的图像文本检索和视觉问答方面表现更好。
- 学会阐述:基于思维链的多模态推理用于科学问答
利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试,证明思路链在语言模型中的实用性,并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界;证明与人类类似,从解释中受益,可以 - 链式思考引导大型语言模型推理
通过 chain of thought prompting 方法,在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能,甚至超过 fine-tuned GPT-3。