回到未来：基于反向传播的无监督解码方法用于反事实和演绎常识推理

Oct, 2020

回到未来：基于反向传播的无监督解码方法用于反事实和演绎常识推理

Back to the Future: Unsupervised Backprop-based Decoding for Counterfactual and Abductive Commonsense Reasoning

Lianhui Qin, Vered Shwartz, Peter West, Chandra Bhagavatula, Jena Hwang...

TL;DR本文提出了一种灵活使用未受监督的逆向传递算法 DeLorean，用于同时结合过去和未来语境进行推理的文本生成和修订任务中，该算法表现优于一系列未受监督和一些受监督的方法。

Abstract

Abductive and counterfactual reasoning, core abilities of everyday human cognition, require reasoning about what might have happened at time t, while conditioning on multiple contexts from the relative past and future. However, simultaneous incorporation of past and future contexts usi

发现论文，激发创造

思考性解码：利用现成语言模型实现双向生成

本文提出了一种名为“Reflective Decoding”的新型无监督算法，可将单向的语言模型应用于非顺序生成任务，如释义和文本填充。实验证明，相较于基线方法，该算法在多个指标上表现更优秀，甚至超越了多个基于监督学习的基线模型。

Oct, 2020

多跳可扩展解释再生的混合自回归推断

研究了在自然语言解释中使用双编码器模型进行科学推理，提出了一个名为SCAR的混合框架，该框架结合了基于变压器的双编码器和稀疏模型，能够在大规模事实库上实现复杂的多跳推理，并提高了下游推理任务的性能表现。

Jul, 2021

COLD解码: 基于能量约束的Langevin动态文本生成

本文提出了一种基于能量约束解码的生成文本的方法，该方法可直接应用于现有语言模型，通过梯度反向传播进行不同iable推理，具有较高的实用性和灵活性。实验证明该方法在多种文本生成任务中均具有较高的自动化和人类的评价表现。

Feb, 2022

AbductionRules: 训练Transformer解释意料之外的输入

该研究旨在探讨Transformer网络在自然语言的事实和规则上的逻辑推理，但未充分研究其在归纳推理中的应用。AbductionRules是一组自然语言数据集，旨在训练和测试自然语言知识库上的归纳推理的可推广性。通过Fine-tuned预训练过的Transformers模型，研究者发现模型学习了可推广的归纳推理技巧，并利用了数据结构。最后，研究者还探讨了这种方法的可行性以及未来的改进方向。

Mar, 2022

结构化、灵活、鲁棒：针对超出分布推理任务对大型语言模型进行基准测试和改进，以实现更类似于人类的行为

人类语言在思维和学习结构方面发挥重要作用。本文提出了一个挑战测评与深度学习语言模型相比人类表现的基准，并通过提供结构化符号推理模块来拓展深度学习语言模型，以使其更符合人类推理。实验表明，在语言表达能力、泛化能力等方面，人类远远优于LLMs，这说明混合AI模型具有更接近人类推理的潜力。

May, 2022

反事实推理：测试语言模型对假设场景的理解

通过调查五种预训练语言模型在特殊条件下进行的逆向推理，发现这种逆向推理主要受到基于单词关联的影响，只有 GPT-3 能够展现对语言细微差别的敏感性。

May, 2023

回到未来：面向大型语言模型的可解释性时间推理

本文提出了解释性时间推理的首个任务，即通过对多个事件进行多步骤的时间推理和对未来时间戳的预测，预测事件在未来时间戳上的发生，并提供清晰的解释。我们基于多源指导调整数据集和知识图谱生成策略，提出了第一个支持解释性时间推理的开源 LLM 系列 TimeLlaMA，该方法在时间预测和解释方面取得了最先进的性能。

Oct, 2023

非常规推理：关于非常规情况的归纳推理

通过研究不寻常、意外和不太可能的情境，我们探索了非常识性推理的能力，发布了一个名为UNcommonsense的英语语料库，并比较人类解释者和最佳大型语言模型的表现差异，最终尝试了几种在线模仿学习算法来训练开放和易用的语言模型，在人工评估中，这些方法在常见和非常识性推理上一致降低了错误率。

Nov, 2023

WorldSense：大型语言模型中基于实例推理的合成基准测试

我们提出了WorldSense，这是一个用于评估LLMs在从简单实体排列的描述中进行简单推理时所能维持的隐式世界模型的程度的基准测试。我们在三个最先进的聊天LLMs（GPT3.5，GPT4和Llama2-chat）上运行我们的基准测试，并显示这些模型在只有三个对象时也会出错。此外，它们具有相当大的响应偏差，无论问题如何，它们都更喜欢特定的响应。错误甚至在思维链提示和上下文学习中仍然存在。最后，我们展示了虽然在类似问题上进行微调确实带来了可观的改进——在内部和超出分布范围内——但是微调的模型并没有超越约束问题空间的普适性。

Nov, 2023

不是所有大型语言模型（LLM）都屈服于“逆转诅咒”：BERT和GPT模型推理能力的比较研究

在这项研究中，我们探讨了大规模语言模型在逻辑推理方面的局限性，发现ChatGPT等自回归解码器训练模型在'A是B'的任务中往往无法学习到'B是A'，从而揭示了它们在逻辑演绎上的失败。我们的研究不仅对双向语言模型BERT进行了评估，发现其对逆转诅咒具有免疫能力，还探索了医学知识图谱构建中的复杂演绎推理能力。尽管在处理两个集合（并集/交集）的情况下编码器和解码器模型表现良好，但在涉及三个集合的操作（并集、交集的各种组合）时，它们遇到了困难。因此，选择BERT和GPT模型应该根据任务的具体要求和性质，充分利用它们在双向上下文理解和序列预测方面的优势。

Dec, 2023