通过生成困难背景教学多步骤 QA 的广泛推理技能
通过使用描述逻辑知识库构建一个合成的自然语言问答数据集,本研究评估了基于 transformer 的模型在推理能力、合成语境和知识库相关的问题上的表现,并展示了模型在训练过程中对不同推理深度的泛化能力。
Nov, 2023
利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试,证明思路链在语言模型中的实用性,并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界;证明与人类类似,从解释中受益,可以借少训练数据实现相同的性能
Sep, 2022
通过使用单个多任务 transformer 模型,我们设计了一个统一的系统,可以迭代地检索支持事实,重新排序它们,并从所有检索的文档中预测答案,从而回答各种需要不同数量的检索步骤的开放领域问题。我们构建了一个新的基准测试 BeerQA,并证明我们的模型在现有基准测试和这个新基准测试上都表现出有竞争力的表现。
Oct, 2020
在提供足够解释性上下文的情况下,较小的语言模型在挑战性的问答任务中表现出强大的推理能力,而问题在训练中是未见过的。我们评估了两种进一步改进这一设置的方法,具体为使用理由排名模型对生成的合理和真实合理性进行评分并使用得分来从知识源中生成组合上下文,以及通过训练较小的推理模型来利用长文本序列中的相关信息。普遍发现,两种方法都有效,但 RATD 方法更容易应用并在我们关注的未见设置中产生最佳结果。
Aug, 2023
通过选择相关任务的可用数据源,将复杂问题分解为简单问题或生成逐步推理的依据,并为选择示例提出自动的不确定性感知的范例选择方法,ICAT 在不涉及任何模型训练的情况下表现出优于现有基于提示的解决方案的性能,展示了重复使用现有能力的好处。
Oct, 2023
本文提出了一种基于预训练的方法,通过利用半结构化表格自动生成问题 - 段落对,以检验模型的推理能力,并且通过采样策略来提高模型训练的效率,在三个涉及推理的阅读理解数据集上证明了我们的模型相比于现有流行模型 T5 表现更优。
Jul, 2021
通过引入 “分解和查询”(D&Q) 框架,使得大规模语言模型在回答问题时能够避免幻觉,通过引导模型思考并利用外部知识,同时限制其思考范围在可靠信息内,从而有效减轻了幻觉的风险。实验证实了 D&Q 的有效性:在我们的 ChitChatQA 数据集上,D&Q 在 67%的情况下不输给 ChatGPT;在 HotPotQA 的仅问题设置下,D&Q 获得了 59.6%的 F1 得分。我们的代码可在此 https URL 找到。
Nov, 2023
利用培训语言模型模仿定理证明器在过程生成的问题上进行逻辑推理仍然是自然语言处理的一个挑战。我们提出了一个更简单、更普遍的声明性框架,通过灵活的上下文敏感规则来绑定多种语言(特别是简化英语和 TPTP 定理证明语言),从而改进了逻辑推理的能力。我们使用语义约束在生成过程中,并对谓词进行仔细的英语表达,提高了逻辑推理能力,而不损害自然英语任务。我们使用相对较小的 DeBERTa-v3 模型在人类编写的逻辑数据集 FOLIO 上实现了最先进的准确性,在有或无外部求解器的情况下,精度超过了 GPT-4 12%。
Jun, 2024
通过串联使用微调语言模型进行多步推理的方法,可以解决大型语言模型的单次调用限制,提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型,并生成可由用户检查的有效推理过程。
Aug, 2022
通过将问题分解为子问题,强迫模型在不同的上下文中回答简单的子问题,可以显著提高模型生成推理的可靠性,并在一定程度上提升效能,从而有望验证 LLM 行为的正确性和安全性。
Jul, 2023