- 链状探测:逐步审查 CoT 的必要性和准确性
当前研究发现了大型语言模型中的早期回答问题,即模型在生成思维链之前已经有了答案,这表明预测答案和推理过程之间可能存在必要的依赖缺失。为了解决这些问题,我们提出了一种名为 Chain-of-Probe(CoP)的方法,用于探究模型推理过程中的 - 基于视图的 Hopfield 解释的思维链推理
通过分析在不同设置下的 CoT 方法,从 Hopfieldian 视角提出了 Read-and-Control 方法,通过广泛实验验证了该框架对于理解 CoT、识别推理错误和控制正确推理路径的能力。
- ACL医疗错误检测和纠正的思维链 (CoT) 促进策略
我们使用少样本上下文学习(ICL)方法以及链式思维(CoT)和大型语言模型(LLM)中的原因提示,来自动检测和纠正临床笔记中的医疗错误,并通过规则集成方法,在三个子任务中取得了第三、第三和第七名的成绩。
- ACLmCoT: 多语言指导调整以提升语言模型的推理一致性
通过多语言推理一致性研究,我们构建了第一个大规模的多语言数学推理数据集 mCoT-MATH,然后引入多语言 CoT 指令调节以提高模型的推理能力和一致性。我们的 7B 参数模型 mCoT 在各种语言上展现出惊人的一致性,并且在性能上优于或与 - 走向忠实的思维链条:大型语言模型正在架设推理桥梁
大型语言模型(LLMs)存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题,确定了集中式推理和分布式推理两种推理范式,并发现它们与忠实性的关系。随后,我们对环境、CoT 和答案之间的因果关系进 - ACL通过符号化推理保持逻辑的准确性
提出了一种基于大型语言模型的新型符号化思维链 (SymbCoT) 框架,通过将符号表达和逻辑规则与语言模型集成,以增强其逻辑推理能力,并在 5 个标准数据集上通过深入评估展示了显著的性能提升。
- SynthAI:一种自动化模块化高层次综合设计生成的多智能体生成型 AI 框架
SynthAI 是一种自动化高层次综合 (HLS) 设计的开创性方法,通过结构化决策图将复杂硬件设计任务系统分解为多个阶段和较小的可管理模块,生成与用户指定的设计目标和功能要求紧密相符的可综合设计。
- 多模态大型语言模型中的图像思考激励对于视觉推理优化的影响
近期在 Chain-of-Thought (CoT) 和相关基于理性的研究中,显着提升了大规模语言模型(LLM)在复杂推理任务中的性能。随着多模态大规模语言模型(MLLM)的发展,增强其解决复杂多模态推理问题的能力是至关重要的。然而,将多模 - 超越思维链:LLM 的链式 X 范式综述
链状思维法(CoT)和链状 X(CoX)方法是大型语言模型(LLMs)中广泛采用的启发式方法,本文提供了对 LLMs 中 CoX 方法的全面调查,包括节点分类和应用任务,并讨论了现有 CoX 方法的结果和未来方向。
- 关于 LLMs 的推理和规划经验复杂性的研究
通过进行实验案例研究并将结果与机器学习中的样本和计算复杂性联系起来,我们发现如果问题可以分解成一系列推理步骤,并且学习预测下一步具有较低的样本和计算复杂性,明确列出推理链与预测下一步所需的所有必要信息可能会改善性能,相反,对于计算复杂的问题 - COLING多模态表示学习的思维图软提示
我们提出了一种新颖的 Aggregation-Graph-of-Thought (AGoT) 机制,用于在多模态表示学习中进行软提示调整,该机制将人类思维过程建模为链式加以思维图,并且通过聚合和流动操作的提示将整个思考过程转化为优化问题,实 - SAAS:增强大型语言模型数学推理的解决能力放大策略
本研究提出了一种新颖的学习方法,旨在增强大型语言模型的数学推理和问题解决能力。通过整合思维链和思维方案的学习,以解决数学问题为重点,提出了一种名为 SAAS 的顺序学习方法。经过广泛的性能比较实证研究,结果表明我们的 SAAS 在数学推理领 - 大型语言模型用于数学推理的双向指导优化
介绍了利用大型语言模型进行指令调优的最新进展,提出了一种双向指令调优策略,通过前向和后向推理任务来改善语言模型对数学推理的理解与执行能力。通过广泛实验证明,这种策略适用于多种数学推理任务并具有领域通用性。
- DetToolChain:一种释放 MLLM 检测能力的新提示范式
DetToolChain 是一种新颖的提示范式,通过高精度检测先验和一种新的思维链条,实现多模态大语言模型(如 GPT-4V 和 Gemini)的零样本目标检测能力。
- CPA-Enhancer:面向未知退化对象检测的思维链条引导自适应增强器
本文介绍了一种面向未知降级的目标检测方法,即使用链式思维引导的自适应增强器 CPA-Enhancer,在不知道降级类型的情况下能够为目标检测任务带来实质性的提升。
- 从文本中提取临床标记的廉价方法
该论文描述了 UniBuc 考古团队在 CLPsych 的 2024 共享任务中的工作,其中包括在文本中找到支持所分配的自杀风险级别的证据。该工作关注评估大型语言模型(LLM),并与一种更加内存和资源高效的替代方法进行对比。
- AS-ES 学习:小模型中高效的 CoT 学习
采用新的训练方法 AS-ES(Abstractive Segments - Extractive Segments)学习,利用 CoT 中的内在信息进行迭代生成,实验证明该方法在 MWP 和 PET 摘要等 CoT 广泛任务上优于直接的 s - 专注于您的问题!解释和缓解常识推理中的有毒 CoT 问题
大型语言模型通过链式思维等增强方法展现出高级的常识推理能力,但我们发现这些类似链式思维的方法会导致很多原本正确的答案变为错误,这就是我们所定义的有害链式思维问题。为了解释和减轻这个问题,我们首先利用归因追踪和因果追踪方法来探究 LLM 在链 - 串联思维不忠诚的伪装准确性
理解链状思维生成在大型语言模型内部计算中的程度对于决定是否信任语言模型的输出至关重要。在评估模型大小与忠实度的关系时,我们发现存在着一种扩大然后逆向缩小的关系,而 130 亿参数模型比其大小范围在 8.1 亿到 1750 亿参数的模型表现出 - 巨型语言模型的推理解释解释能力如何?
大规模语言模型的性能可以通过 Prompt Engineering 和 Chain-of-Thought 等提高,本研究从多个方面全面评估了可解释性并引入了一种名为 Self-Entailment-Alignment Chain-of-th