通过结论生成评估论证的充分性

Oct, 2021

Assessing the Sufficiency of Arguments through Conclusion Generation

Timon Gurcke, Milad Alshomary, Henning Wachsmuth

TL;DR本研究探索了使用预训练语言模型进行论点充分性评估的潜力，并发现最佳模型变量的 F1 分数为 0.885，超过了之前的最佳表现并与人类专家相当，在手动评估中发现其生成结论的质量较高，但影响力最终仍然很小。

Abstract

The premises of an argument give evidence or other reasons to support a conclusion. However, the amount of support required depends on the generality of a →

发现论文，激发创造

自动论证质量评估--新数据集和方法

探索自动评估论点质量的任务，通过对6.3k个论点进行精细注释，以及14k个论点对的高品质论点独立标注，提出基于最近发布的语言模型的神经方法进行论点排序和论点对分类，产生与最先进技术相媲美的结果。

Sep, 2019

修辞、逻辑和辩证法：自然语言处理中理论为基础的论证质量评估的推进

本研究针对计算论证质量(AQ)的整体评估展开前期工作，提出了一种基于理论的评估方法，并开发了首个大规模的英文多领域(AQ社区问答、辩论、评论)语料库GAQCorpus，为之后的工作提供了坚实的基础。

Jun, 2020

论证的内在质量评估

本文研究自然语言争辩的质量维度及其依赖的语言特征、上下文和主题知识等方面，并通过实验验证了计算机自主评估质量维度的有效性和局限性。

Oct, 2020

论据削弱：通过攻击薄弱前提生成反驳论点

本文研究文本生成在计算辩证研究中的应用，着重探讨对抗性生成的挑战，并提出了攻击一个前提来对抗一个论点的方法，该方法首先评估本体的强度，然后生成一个针对其弱点的反驳性论述，人工和自动评估都证明了找出薄弱的前提对于对抗性生成的重要性。

May, 2021

探索论证质量预测的整体视角

本文研究基于NLP和大量文本数据得到的自动化argument mining，评估argument质量估计对于不同领域的通用性、与相关argument mining任务的相互作用以及情感对于观察到的argument强度的影响。作者发现不同领域的训练数据可以提高质量估计的泛化能力，在零样本迁移和多任务实验中，argument quality在多个方面都能够得到改善，而情感对argument quality的影响不如人们普遍认为的那样大。

May, 2022

计算论证中的主张优化

本研究提出了一种新的任务，即通过重新编写具有说服力的论证描述来优化其传递方式，并使用序列到序列模型和上下文信息生成了候选的最优论证描述来改善传递，该方法在英语语料库上的自动和人工评估中胜过了其他重新排序基线，并且能够很好地推广到其他文本领域。

Dec, 2022

预测争论性写作修改的质量

针对提高学生论述写作水平和有效判断其修改文章的质量的问题，本研究提出了基于 Chain-of-Thought 提示的 ChatGPT 生成论点基础，用于预测其修改后的质量，并在初中和大学学生论文数据集中实验证明了其优越性。

Jun, 2023

CASA：因果关系驱动的论据充分性评估

通过使用大型语言模型生成与前提和结论不一致的上下文，并通过注入前提事件对其进行修订，CASA能够准确识别不充分的论证，并在写作辅助应用中改善学生写作论证的充分性。

Jan, 2024

大型语言模型中的论证质量评估

对有争议问题的论述的计算处理在自然语言处理领域进行了广泛研究，其中论证质量评估是一个关键且具有挑战性的任务。本文提出了利用大型语言模型，通过系统指导其熟悉论证理论和场景以及解决相关问题的方式，以实现更可靠的论证质量评估，同时讨论了由此而产生的现实机遇和道德问题。

Mar, 2024

你站在哪一边？一项用于端对端论点摘要和评估的多任务数据集

通过引入一个涵盖辩论中各项任务的论证挖掘数据集，我们评估了多种生成基准模型，并发现虽然它们在个别任务上表现出有希望的结果，但在全部任务上的整体性能明显下降，这对于我们提出的数据集提出了挑战，需要进一步研究端到端的论证挖掘和概括。

Jun, 2024