Feb, 2024

人与机:重新思考自然语言模型的蕴涵验证

TL;DR该研究通过比较人类和大型语言模型(LLMs)之间的推理判断的共性和差异,以及对三个类别(NLI、contextual QA 和 rationales)的多个数据集进行评估,揭示了 LLMs 在复杂推理环境中的多步推理上的优势和人类在简单推理方面的优势,并引入了一种经过精细调整的 Flan-T5 模型来提高自洽性,在三个多项选择问答数据集上平均提高了 6% 的性能。