- 对 ChatGPT 自我修正在放射学报告简化中进行的双重人工评估
本研究探讨大型语言模型在自动生成适合患者的放射学报告简化方面的适用性,研究结果表明自我纠正提示能够产生高质量的简化报告,为放射科医生和一般人对于文本简化的喜好提供了启示,对未来的研究有指导意义。
- 使用多任务自我教导的大型语言模型的安全漏洞检测
通过将程序控制流图编码为图神经网络的多任务序列到序列 LLM 技术,结合多任务自我指导微调的自我说明和 LLM 自我指导,MSIVD 在漏洞检测方面取得了卓越的性能,达到了 0.92 的 F1 得分(BigVul 数据集)和 0.48 的 - ACL对思维链的先发性回答 “攻击
通过预先答案的场景和两种措施,本文探讨了大型语言模型的推理能力的鲁棒性问题。
- 瞄准内部一致性:对语言模型进行推理校准
通过检查中间层解码的潜在预测的一致性,我们提出了内部一致性作为模型信心的度量,这有效地区分了正确和错误的推理路径,并通过加权具有高内部一致性的推理路径来调整链式推理,从而显著提高了推理性能。我们的结果表明,内部表示的使用可以将 LLMs 自 - COLING推理的聚合:一个增强大型语言模型中答案选择的层次框架
最近在 “思维链路提示” 方面取得的进展为大型语言模型在复杂推理任务中带来了重大突破。然而,当前的研究通过对答案频率进行多个推理链路的抽样和集成来增强 LLMs 的推理性能,但这种方法在正确答案占少数的情况下会失败。为了解决这个局限性,我们 - 跨语言评估 ChatGPT 的数学能力
本文评估了 ChatGPT 在印地语、古吉拉特语和马拉地语等不同语言中的数学能力。我们探索了 ChatGPT 在多种自然语言中解决数学问题的能力,并使用思维链提示来确定它是否像在英语中那样增加了回答的准确性,并提供了当前的限制。
- ACL大型语言模型时代的语义表示分析
在大语言模型 (LLMs) 时代,本文调查了语义表征在 LLMs 时代中的作用,并探讨了 Abstract Meaning Representation (AMR) 对五个不同自然语言处理任务的影响。通过提出了一种名为 AMRCoT 的 A - 逻辑代理:通过逻辑规则调用增强有效性
通过引入逻辑代理(LA)框架,将 LLM 转化为逻辑代理,使用预定义函数和命题逻辑规则实现推理过程,提高推理构建的结构性、连贯性和逻辑一致性,从而显著提高复杂推理精确性。
- 大型语言模型中的模式感知思维链激励
链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法,通过在中间步骤中结合步长和推理过程等模式,有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准 - MFORT-QA:多跳少样本开放丰富表格问答
通过多跳式少样本开放式丰富表格问答(MFORT-QA)方法,利用大型语言模型、少样本学习和多跳式推理思路,从表格数据中提取信息并显著改善抽取式表格问答方法的准确性。
- MasonTigers 参加 SemEval-2024 任务 9: 用思维链集合解决谜题
我们的研究采用大型语言模型 (LLMs) 和几种提示技术解决自然语言理解测试中提供的谜题数据集。通过零瞄和少瞄提示,相较于开源模型,我们的专有模型表现出合理的结果。通过分步提示的迭代提示方法,我们进一步改进了结果。通过使用一系列分步提示,我 - COLINGChainLM: 通过改进思维连贯性促进大型语言模型的能力
Chain-of-Thought 提示可以增强大型语言模型(LLMs)的推理能力,现有的 CoT 综合方法针对简单推理任务,导致 CoT 提示的质量低且不一致。为了应对这一挑战,我们进行了 CoT 提示的实证研究并引入了 CoTGenius - BEnQA:孟加拉语和英语的问题回答与推理基准
本研究介绍了 BEnQA 数据集,该数据集包括孟加拉国中学和高中水平的平行孟加拉语和英语考试题目。我们的数据集包含大约 5,000 个问题,涵盖了科学的多个学科,并包含事实、应用和推理类问题。我们使用平行数据集对多个大型语言模型进行了基准测 - 扩增偏差一致性训练降低思维连贯中的偏见推理
应用偏差增强的一致性训练(BCT)在 GPT-3.5-Turbo 模型上,可以降低严重的偏差性推理达到 86%,平均减少 37% 的偏差性推理,并可以适应未知偏差领域和没有金标的任务。
- RNNs 并非变形金刚(尚未如此):上下文检索的关键瓶颈
本研究探讨了递归神经网络(RNNs)和变压器(Transformers)在解决算法问题时的表示能力差距,发现通过 Chain-of-Thought 提示,RNNs 能够提高性能,但无法与 Transformers 靠近,而 RNNs 通过增 - 逐步思考的方式:链状思维推理的机械性理解
通过对大型语言模型的内部机制进行机械性探索,我们发现大型语言模型在连续思考生成上部署多个并行路径,产生了顺序答案,并观察到模型中的功能分层差异,这是对连续思考推理进行机械性研究的首次尝试。
- ICLR思维的提升:利用大型语言模型进行试错问题解决
通过迭代地探索和自我评估许多思维树以获得试错推理经验集,我们提出了一种用于 LLMs 问题解决的自动提示框架 BoT,它将作为一种新形式的提示来解决复杂的问题。实验证明,BoT 在解决复杂数学问题时,与其他先进的提示方法相比,可以达到更高或 - 分割符号能提高思维链路提示吗?
通过引入 CoT-Sep,一种在 Chain-of-thought prompting 中使用分隔符的新方法,可以显著提高 LLMs 在复杂推理任务上的表现。
- 我们能为错误答案检测逐步验证吗?
通过对推理链和性能的关系的研究,我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE,该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分(PDS)框架,充分利用多个推理链的信息, - 大型语言模型如何在诚实和有帮助性之间进行平衡?
使用心理模型和实验分析了大型语言模型的处理方式,发现强化学习通过人类反馈可提高诚实性和帮助性,而思维链提示则使语言模型偏向帮助性而牺牲了诚实性。最终,GPT-4 Turbo 展现出类似于人类的回应模式,包括对话框架和听者决策背景的敏感性,揭