对有争议问题的论述的计算处理在自然语言处理领域进行了广泛研究,其中论证质量评估是一个关键且具有挑战性的任务。本文提出了利用大型语言模型,通过系统指导其熟悉论证理论和场景以及解决相关问题的方式,以实现更可靠的论证质量评估,同时讨论了由此而产生的现实机遇和道德问题。
Mar, 2024
本研究针对计算论证质量 (AQ) 的整体评估展开前期工作,提出了一种基于理论的评估方法,并开发了首个大规模的英文多领域 (AQ 社区问答、辩论、评论) 语料库 GAQCorpus,为之后的工作提供了坚实的基础。
Jun, 2020
本文提出一种计算论证的质量评估方法,通过比较同一主张的不同版本来评定其质量,证明能够有效泛化于不同主题之间。该方法基于大规模样本库及嵌入式逻辑回归和基于 Transformer 的神经网络,并提供数据和脚本以复现结果。
Jan, 2021
本文研究基于 NLP 和大量文本数据得到的自动化 argument mining,评估 argument 质量估计对于不同领域的通用性、与相关 argument mining 任务的相互作用以及情感对于观察到的 argument 强度的影响。作者发现不同领域的训练数据可以提高质量估计的泛化能力,在零样本迁移和多任务实验中,argument quality 在多个方面都能够得到改善,而情感对 argument quality 的影响不如人们普遍认为的那样大。
May, 2022
探索自动评估论点质量的任务,通过对 6.3k 个论点进行精细注释,以及 14k 个论点对的高品质论点独立标注,提出基于最近发布的语言模型的神经方法进行论点排序和论点对分类,产生与最先进技术相媲美的结果。
Sep, 2019
提出了一种基于上下文知识的新颖的 SPARK 方法,使用大型语言模型评估和增强语言质量,提供反馈,推断隐藏假设,提供同等质量的论证或反论证,并使用双编码器 Transformer 架构共同考虑原始论证及其增强,实验结果表明,SPARK 在多个指标上始终优于基线。
May, 2023
本研究探索了论证质量排序的挑战性任务,构建了一个被精心注释的语料库来解决这个问题,并进行了综合评估,最后提出了一种神经方法来解决此问题。
Nov, 2019
计算实验确定孟加拉语和俄语语言变体的内在维度,并发现内在维度显著低于自然语言处理中常用的神经网络模型的维度。
Nov, 2023
使用最新的大型语言模型作为论证质量评估的代理者,研究了模型、人类专家和新手评估者之间的一致性,结果表明大型语言模型在大多数质量维度上与人类专家之间具有适度高的一致性,并且使用大型语言模型作为额外的评估者可以显著提高评估者间的一致性,因此提出大型语言模型可以作为自动化论证质量评估的有价值工具,从而加快了大规模论证数据的评估过程。
Apr, 2024
本研究提出了一個新的數據集,旨在研究論證時實際情境和語境對論據質量的影響,並提供整合了語境的預測模型,展示其在預測特定論證中所使用的論點對外界的影響時比僅依賴於論點語言特徵的模型更加準確。
Apr, 2020