本文提出一种联合框架,用于改善多轮对话中回复生成的表现。这种框架结合了阅读理解任务和回复生成任务,共享相同的编码器来提取共同且与任务无关的特征和不同的解码器来学习任务特定的特征。用记忆更新器增强 Transformer 体系结构以更好地将问题和对话历史的信息融合在编码部分,并在大规模对话阅读理解数据集上进行了实验,结果显示该模型对于两个任务都带来了显著的改进。
Dec, 2020
通过重新阅读问题信息嵌入在提示中,我们提出了一种似乎简单但非常有效的提示策略,称为 “问题重新阅读”,该方法与认知增强的原理相一致,使得大型语言模型能够提取更深入的见解,识别复杂的模式,建立更细致的联系,从而增强其在各种任务中的推理能力。
Sep, 2023
在提供足够解释性上下文的情况下,较小的语言模型在挑战性的问答任务中表现出强大的推理能力,而问题在训练中是未见过的。我们评估了两种进一步改进这一设置的方法,具体为使用理由排名模型对生成的合理和真实合理性进行评分并使用得分来从知识源中生成组合上下文,以及通过训练较小的推理模型来利用长文本序列中的相关信息。普遍发现,两种方法都有效,但 RATD 方法更容易应用并在我们关注的未见设置中产生最佳结果。
Aug, 2023
通过使用描述逻辑知识库构建一个合成的自然语言问答数据集,本研究评估了基于 transformer 的模型在推理能力、合成语境和知识库相关的问题上的表现,并展示了模型在训练过程中对不同推理深度的泛化能力。
Nov, 2023
本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法,借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识,从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。
Dec, 2022
本研究探讨了大型语言模型的脱离上下文推理能力,特别关注脱离上下文知识推理和跨语言知识传递,并发现现有模型在这方面的能力有限。
Jun, 2024
通过构建自然语言处理任务中的大型语言模型,研究了知识推理的细节和方法,并提出了一个全面的知识推理框架 Chain-of-Knowledge(CoK),通过基于知识图的规则挖掘生成数据集,并结合人类知识探索过程的试错机制来提高模型学习的效果。实验证明,CoK 不仅在知识推理上,还在一般推理基准中具有优异的效果。
该研究证明,通过使用既有的预训练模型中的隐含知识以及显式的自然语言陈述,神经网络可以可靠地执行系统性推理任务,这为开放领域的系统不断与用户交互、持续改进的路径铺平了道路。
Jun, 2020
通过动态上下文编辑的方式,我们引入了一种新的方法,将信息检索重新设想,使长文本上下文成为可塑的外部知识,并通过与最新的知识编辑技术相结合,与有关信息进行交互式收集和整合,从而使大型语言模型能够进行复杂的推理步骤,有效增强了推理能力。
本文提出了一个模块化的知识转换模型(K2R)来将知识纳入对话体系,通过将这一问题分解为两个简单的步骤来解决对该问题的挑战。在详细实验中,我们发现这种模型在与知识相关的对话任务中幻觉较少,并且具有解释性和模块化方面的优势。
Nov, 2021