- 通过思维链激励评估大型语言模型的性别偏见
对于大型语言模型,通过链判断(Chain-of-Thought)激励可以在扩展任务上实现准确的增量预测,但其内化和复制社会偏见仍存在问题,因此需要对其在性别偏见上的影响进行研究。通过创建一个包含女性、男性和有性别意味的职业单词列表的非扩展任 - 非言语抽象推理的研究:多模态大型语言模型的好奇之境
通过 Raven's Progressive Matrices 的变种,评估开源和闭源的多模态大型语言模型(MLLMs)的非语言抽象推理能力,发现了解决这类问题的困难以及开源和闭源模型之间巨大的差距,并揭示了个别视觉模块和文本模块的关键缺陷 - ICLRBadChain:大型语言模型的后门思维链触发
该论文介绍了一种针对大型语言模型的链式思维激励下的后门攻击方法,该方法利用模型的推理能力,通过在模型输出的推理步骤序列中插入后门推理步骤,从而改变当查询激发后门触发器时的最终响应。实验证明,该后门攻击方法对多个大型语言模型具有很高的攻击成功 - 基于 GPT 的无语言限制多阶段提示方法的新型多项选择题生成
我们引入了一种多阶段提示方法(MSP)用于生成多项选择题(MCQs),借助于文本戴文西 - 003 和 GPT-4 等 GPT 模型的能力,这些模型在各种自然语言处理任务中表现出色。我们的方法融合了连贯思维提示的创新概念,这是一种渐进式技术 - 基于上下文和检索增强推理的单一代理两步提示的证据生成(E2G)
通过引入 E2G 方法,基于证据的推理框架,可以解决现有的 CoT 提示方法的局限性,提高 LLM 推理过程的准确性和效率。该方法在知识密集型任务中取得了显著结果,优于基准方法和现有的 LLM 模型。
- 更好地了解您的需求:利用类比推理增强的结构化市场营销人员需求理解模型
我们提出了 ARALLM(即类比推理增强的大型语言模型),包括两个模块:基于类比推理的提示和推理增强多任务模型蒸馏。
- WSDM逻辑支架:使用 LLMs 进行个性化方面指导的推荐解释生成
利用大型语言模型的独特能力,本文提出一种名为 Logic-Scaffolding 的框架,通过中间推理步骤结合方面解释和思维链提示的思想生成解释,以解决现有模型在零 - shot 解释上的困难。
- 大语言模型的语音翻译:一个工业实践
我们介绍了一种新颖有效的语音翻译模型 LLM-ST,它基于预训练的大型语言模型(LLM),通过将 LLM 与语音编码器集成并使用多任务指导调优,LLM-ST 能够准确地生成带时间戳的转录和翻译,甚至可以处理长时间的音频输入。此外,我们的研究 - PathFinder: 多步推理路径导引式搜索
引用束搜索算法的灵感,我们提出了 PathFinder,一种基于树搜索的推理路径生成方法,通过集成动态解码、约束推理和评分排序功能,提高多样分支和多跳推理的效率和质量,以及候选选择的性能,相对于竞争性的基线模型,在三个复杂的算术和常识推理任 - 链式思维推理的潜在技能发现
最近的大型语言模型 (LLMs) 的前进使得思维链 (CoT) 提醒的紧急能力增加,它是一种在问题和答案之间添加中间的合理步骤来构造提示的合理推理策略。在这些提示的条件下,LLMs 可以有效地学习上下文以生成比直接回答相同问题更准确的答案所 - 大型语言模型生成的通用自一致性
利用大型语言模型采样的多个推理路径,结合自我一致性和链式思维提示,在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法(USC),它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成 - 大型语言模型中多跳问答的图引导推理
通过引入图引导的 CoT 提示方法,以问题 / 理由图为基础的图引导推理方法在多步骤推理中表现出优越性能。
- 迈向多步推理答案校准的统一视角
利用链式思考提问的大型语言模型(LLMs)扩大了改进多步推理能力的范围。本文研究了最近的答案校准策略的设计,并从统一的视角对其进行了全面评估,系统地审查了多个路径上的分步和路径级答案校准。我们的研究有潜力揭示优化多步推理的关键见解。
- 通过思维树增强跨语言多步推理
本研究通过一种自洽的跨语言提示机制,提出了一种跨语言多步推理方法,可以在不同语言中实现多步推理路径,从而达到解决复杂推理任务的目的,并在实验评估中表现出比现有提示方法更优的性能。
- 再问一次:自我一致性提升(几乎)所有情境下的语言模型推理能力
通过自一致性和自一致性来解决链式思考提示中的贪婪解码的问题,并提出了自一致性的方法,它能够在几乎所有场景中得到优化,同时在六个公开推理基准中表现出显著的性能和卓越的普适性。
- 评估大型语言模型中的排除推理过程的难度
链式思维激励(COT)与排除法(PoE)相结合可增强语言模型在错误答案推理方面的解释性,研究对自动医学诊断等任务中的排除法与 COT 的应用效果,并发现其性能低于直接选择正确答案,以及建议进一步研究该问题的错误分析。
- 自我解释:教大型语言模型自行推理复杂问题
聚焦大型语言模型,探索通过自我解释生成复杂问题的过程,发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题,甚至在几个复杂问题回答数据集上优于人工生成的示例。
- LLM 的神秘与魅力:对新能力的解释与分析的全面调查
对大型语言模型的现象能力进行解释和分析的广泛调查,包括宏观和微观两个层面的研究,并强调了相关挑战和未来研究的潜在方向。
- AMERICANO: 基于语篇引导分解和代理人互动的论证生成
这篇论文提出了一个名为 Americano 的新型框架,利用代理互动将生成过程分解为基于论证理论的连续动作序列,首先按顺序执行动作来生成论证性话语组成部分,然后根据这些组成部分生成最终论证。为了进一步模仿人类写作过程并改进当前自回归语言模型 - EMNLP社交媒体上的立场检测的思维链嵌入
社交媒体上的立场检测对大型语言模型(LLMs)来说是具有挑战性的,因为在线对话中的新兴俚语和口头语通常包含深层次的隐含立场标签。在这项研究中,我们通过引入 COT 嵌入来改进了 COT 提示在立场检测任务上的性能,将 COT 推理嵌入到传统