论证的内在质量评估

COLINGOct, 2020

Intrinsic Quality Assessment of Arguments

Henning Wachsmuth, Till Werner

TL;DR本文研究自然语言争辩的质量维度及其依赖的语言特征、上下文和主题知识等方面，并通过实验验证了计算机自主评估质量维度的有效性和局限性。

Abstract

Several quality dimensions of natural language arguments have been investigated. Some are likely to be reflected in linguistic features (e

natural language arguments quality dimensions linguistic features computational assessment subjectivity features

发现论文，激发创造

大型语言模型中的论证质量评估

对有争议问题的论述的计算处理在自然语言处理领域进行了广泛研究，其中论证质量评估是一个关键且具有挑战性的任务。本文提出了利用大型语言模型，通过系统指导其熟悉论证理论和场景以及解决相关问题的方式，以实现更可靠的论证质量评估，同时讨论了由此而产生的现实机遇和道德问题。

Mar, 2024

修辞、逻辑和辩证法：自然语言处理中理论为基础的论证质量评估的推进

本研究针对计算论证质量 (AQ) 的整体评估展开前期工作，提出了一种基于理论的评估方法，并开发了首个大规模的英文多领域 (AQ 社区问答、辩论、评论) 语料库 GAQCorpus，为之后的工作提供了坚实的基础。

Jun, 2020

从修订中学习：大规模论证中主张质量评估

本文提出一种计算论证的质量评估方法，通过比较同一主张的不同版本来评定其质量，证明能够有效泛化于不同主题之间。该方法基于大规模样本库及嵌入式逻辑回归和基于 Transformer 的神经网络，并提供数据和脚本以复现结果。

Jan, 2021

探索论证质量预测的整体视角

本文研究基于 NLP 和大量文本数据得到的自动化 argument mining，评估 argument 质量估计对于不同领域的通用性、与相关 argument mining 任务的相互作用以及情感对于观察到的 argument 强度的影响。作者发现不同领域的训练数据可以提高质量估计的泛化能力，在零样本迁移和多任务实验中，argument quality 在多个方面都能够得到改善，而情感对 argument quality 的影响不如人们普遍认为的那样大。

May, 2022

自动论证质量评估 -- 新数据集和方法

探索自动评估论点质量的任务，通过对 6.3k 个论点进行精细注释，以及 14k 个论点对的高品质论点独立标注，提出基于最近发布的语言模型的神经方法进行论点排序和论点对分类，产生与最先进技术相媲美的结果。

Sep, 2019

用相关知识来定位辩论质量评估的环境

提出了一种基于上下文知识的新颖的 SPARK 方法，使用大型语言模型评估和增强语言质量，提供反馈，推断隐藏假设，提供同等质量的论证或反论证，并使用双编码器 Transformer 架构共同考虑原始论证及其增强，实验结果表明，SPARK 在多个指标上始终优于基线。

May, 2023

一个大规模的争论质量排名数据集：建立与分析

本研究探索了论证质量排序的挑战性任务，构建了一个被精心注释的语料库来解决这个问题，并进行了综合评估，最后提出了一种神经方法来解决此问题。

Nov, 2019

使用正式概念分析评估自然语言的内在维度

计算实验确定孟加拉语和俄语语言变体的内在维度，并发现内在维度显著低于自然语言处理中常用的神经网络模型的维度。

Nov, 2023

大型语言模型可靠的论点质量标注员吗？

使用最新的大型语言模型作为论证质量评估的代理者，研究了模型、人类专家和新手评估者之间的一致性，结果表明大型语言模型在大多数质量维度上与人类专家之间具有适度高的一致性，并且使用大型语言模型作为额外的评估者可以显著提高评估者间的一致性，因此提出大型语言模型可以作为自动化论证质量评估的有价值工具，从而加快了大规模论证数据的评估过程。

Apr, 2024

论语用和篇章语境在确定论点影响力中的作用

本研究提出了一個新的數據集，旨在研究論證時實際情境和語境對論據質量的影響，並提供整合了語境的預測模型，展示其在預測特定論證中所使用的論點對外界的影響時比僅依賴於論點語言特徵的模型更加準確。

Apr, 2020