评估 ChatGPT 生成的好、坏和丑陋的论证：一个新的数据集、方法论和相关任务

Jun, 2024

评估 ChatGPT 生成的好、坏和丑陋的论证：一个新的数据集、方法论和相关任务

Assessing Good, Bad and Ugly Arguments Generated by ChatGPT: a New Dataset, its Methodology and Associated Tasks

Victor Hugo Nascimento Rocha, Igor Cataneo Silveira, Paulo Pirozelli, Denis Deratani Mauá, Fabio Gagliardi Cozman

TL;DR本论文介绍了一种从 ChatGPT 生成的论述性文章中提取好的、坏的和丑陋的论点的方法，并描述了一个包含多样化论证的新颖数据集 ArGPT。我们评估了数据集的有效性并为几个与论述相关的任务建立了基线。最后，我们展示人工生成的数据与人类论证之间的关联，证明其可以作为训练和测试系统所定义任务的工具。

Abstract

The recent success of large language models (LLMs) has sparked concerns about their potential to spread misinformation. As a result, there is a pressing need for tools to identify ``→

large language models misinformation fake arguments argumentative essays argpt

发现论文，激发创造

ArguGPT: 评估、理解和识别由 GPT 模型生成的论证性文章

本文介绍了 ArguGPT 数据集，分析了由大型语言模型生成的英文论述文章的语言学特征，以及用于检测 AIGC 的现有和新型检测器的性能，其中使用的 RoBERTa 检测器在 essay 和 sentence 级别均可达到 90% 以上的准确率。

Apr, 2023

人工智能和 ChatGPT 生成文章与人类写作的大规模比较

通过对比 ChatGPT 与人类写作的 argumentative 学生论文，我们系统地评估了 AI 生成内容的质量，结果表明 ChatGPT 生成的论文在质量上要高于人类写作。

Apr, 2023

ChatGPT 是否能捍卫真相？自动辩证评估揭示了大语言模型推理中的不足

我们探讨了如何通过进行辩论式的对话来测试大型语言模型（LLM）的推理能力，以此来衡量模型是否真正理解了问题的本质。对多个复杂的推理测试进行实验表明，尽管 ChatGPT 等模型一开始可以生成正确的解决方案，但在面对荒谬的无效论据时，它们无法保持对真理的信仰。

May, 2023

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

使用 ChatGPT 对虚假新闻数据集进行增强事实核查的再访

通过扩充大语言模型 (ChatGPT) 的事实核查，重新审视了由人类记者验证的现有虚假新闻数据集，并将扩充的虚假新闻数据集命名为 ChatGPT-FC。我们在评估新闻主题可信度、新闻创作者可信度、时态敏感度和政治框架方面定量分析了人类记者和 LLM 之间的差异和相似之处。我们的研究结果强调了 LLM 作为初步筛选方法的潜力，为减轻人类记者的固有偏见并增强虚假新闻检测提供了有希望的途径。

Dec, 2023

大型语言模型中的论证质量评估

对有争议问题的论述的计算处理在自然语言处理领域进行了广泛研究，其中论证质量评估是一个关键且具有挑战性的任务。本文提出了利用大型语言模型，通过系统指导其熟悉论证理论和场景以及解决相关问题的方式，以实现更可靠的论证质量评估，同时讨论了由此而产生的现实机遇和道德问题。

Mar, 2024

遮蔽哄骗：规避 ChatGPT 的安全措施，大规模生成难以检测的虚假宣称

ChatGPT 在乌克兰战争等其知识范围之外的事件中生成的消息可以与由人类撰写的消息以及 ClaimReview 中的关于战争的声明无法可靠地区分开来。

Feb, 2024

利用紧凑语言模型和 ChatGPT-4 改进的高效论点分类

通过比较深度学习模型在论证挖掘中的性能，本研究提出了一种基于 BERT 架构和 ChatGPT-4 的集成模型 (BERT+ChatGPT-4)，该模型在论证分类方面的表现优于其他基于 Transformer 和 LSTM 的模型，并为进一步提高论证分类模型和消除分类错误提供了重要的见解。

Mar, 2024

语言模型的批判性思维

本文提出了一种针对神经自回归语言模型的批判性思维课程的初步探索，为此我们介绍了一种综合语料库，并生成人工辩论文本进行训练和评估。结果显示，在核心辩论中进行预训练能够显著提高语言模型的推理能力。本文中介绍的人工辩论文本是构建 “语言模型的批判性思维课程” 的一个有前途的起点。

Sep, 2020

探索大型语言模型在计算论证中的潜力

这项研究评估了大型语言模型在计算论证领域的表现，针对论证挖掘和论证生成等任务进行了零样本和少样本设定下的评估，并提出了 14 个公开数据集的标准化格式，以及一种新的针对反述生成的基准数据集，展示了大型语言模型在论证领域的良好性能，并指出评估计算论证的局限性和未来研究方向的建议。

Nov, 2023