语言模型的批判性思维

Sep, 2020

Critical Thinking for Language Models

Gregor Betz, Christian Voigt, Kyle Richardson

TL;DR本文提出了一种针对神经自回归语言模型的批判性思维课程的初步探索，为此我们介绍了一种综合语料库，并生成人工辩论文本进行训练和评估。结果显示，在核心辩论中进行预训练能够显著提高语言模型的推理能力。本文中介绍的人工辩论文本是构建 “语言模型的批判性思维课程” 的一个有前途的起点。

Abstract

This paper takes a first step towards a critical thinking curriculum for neural auto-regressive language models. We introduce a synthetic corpus of deductively valid arguments, and generate artificial argumentati

critical thinking neural auto-regressive language models training transfer learning pre-training

发现论文，激发创造

大型语言模型中的论证质量评估

对有争议问题的论述的计算处理在自然语言处理领域进行了广泛研究，其中论证质量评估是一个关键且具有挑战性的任务。本文提出了利用大型语言模型，通过系统指导其熟悉论证理论和场景以及解决相关问题的方式，以实现更可靠的论证质量评估，同时讨论了由此而产生的现实机遇和道德问题。

Mar, 2024

ArguGPT: 评估、理解和识别由 GPT 模型生成的论证性文章

本文介绍了 ArguGPT 数据集，分析了由大型语言模型生成的英文论述文章的语言学特征，以及用于检测 AIGC 的现有和新型检测器的性能，其中使用的 RoBERTa 检测器在 essay 和 sentence 级别均可达到 90% 以上的准确率。

Apr, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

理性飞跃：教授预训练模型系统性地推理隐含知识

该研究证明，通过使用既有的预训练模型中的隐含知识以及显式的自然语言陈述，神经网络可以可靠地执行系统性推理任务，这为开放领域的系统不断与用户交互、持续改进的路径铺平了道路。

Jun, 2020

正式辩证推理是否可以提升 LLMs 的性能？

介绍了一种计算论证语义引擎（MQArgEng）和初步研究，评估引入计算论证语义对大型语言模型性能的影响。实验结果表明 MQArgEng 在大部分考察的主题类别中提供了适度的性能提升，呈现出潜力并值得进一步研究。

May, 2024

为比较推理预训练语言模型

本文提出了一种新的预训练语言模型框架，通过增强其对文本的比较推理能力来提高 NLP 任务的性能，该框架通过收集结构化和非结构化数据设计了三个新的预训练任务，并在比较问答、问句生成和摘要等下游任务中进行了评估，结果显示，我们的预训练框架显著提高了语言模型的比较推理能力，特别是在低资源条件下。此外，本工作还发布了第一个针对文本比较推理的综合基准。

May, 2023

经济领域的辩证文本生成

本文介绍了如何利用 RuBERT fine-tuning 技术以及经过语言标注的经济新闻语料库来优化 ruGPT-3 模型，从而提高俄文下生成文字的准确率。

Jun, 2022

探索大型语言模型在计算论证中的潜力

这项研究评估了大型语言模型在计算论证领域的表现，针对论证挖掘和论证生成等任务进行了零样本和少样本设定下的评估，并提出了 14 个公开数据集的标准化格式，以及一种新的针对反述生成的基准数据集，展示了大型语言模型在论证领域的良好性能，并指出评估计算论证的局限性和未来研究方向的建议。

Nov, 2023

探索大型语言模型在通过思维链路提示进行反思评估方法中的效力

通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分，结果显示 Llama-7b 表现最差，均方误差最高，而 ChatGPT 表现出色，科恩卡帕分数达到 0.53。此外，所选模型均优先考虑用户隐私，允许用户删除自己进行的会话。

Sep, 2023

一种评估生成型人工智能思考质量的框架

通过 MAGE 框架，本研究旨在探索 LLM ChatGPT4 应用的能力，为教育工作者提供一个方法，以在其学科背景中系统地评估其评估的脆弱性，并提供特定和针对性的问题脆弱性指示，以评估关键思维技能的基础。

Jun, 2024