用相关知识来定位辩论质量评估的环境
本文研究基于 NLP 和大量文本数据得到的自动化 argument mining,评估 argument 质量估计对于不同领域的通用性、与相关 argument mining 任务的相互作用以及情感对于观察到的 argument 强度的影响。作者发现不同领域的训练数据可以提高质量估计的泛化能力,在零样本迁移和多任务实验中,argument quality 在多个方面都能够得到改善,而情感对 argument quality 的影响不如人们普遍认为的那样大。
May, 2022
对有争议问题的论述的计算处理在自然语言处理领域进行了广泛研究,其中论证质量评估是一个关键且具有挑战性的任务。本文提出了利用大型语言模型,通过系统指导其熟悉论证理论和场景以及解决相关问题的方式,以实现更可靠的论证质量评估,同时讨论了由此而产生的现实机遇和道德问题。
Mar, 2024
探索自动评估论点质量的任务,通过对 6.3k 个论点进行精细注释,以及 14k 个论点对的高品质论点独立标注,提出基于最近发布的语言模型的神经方法进行论点排序和论点对分类,产生与最先进技术相媲美的结果。
Sep, 2019
本文提出一种计算论证的质量评估方法,通过比较同一主张的不同版本来评定其质量,证明能够有效泛化于不同主题之间。该方法基于大规模样本库及嵌入式逻辑回归和基于 Transformer 的神经网络,并提供数据和脚本以复现结果。
Jan, 2021
本研究针对计算论证质量 (AQ) 的整体评估展开前期工作,提出了一种基于理论的评估方法,并开发了首个大规模的英文多领域 (AQ 社区问答、辩论、评论) 语料库 GAQCorpus,为之后的工作提供了坚实的基础。
Jun, 2020
该研究提出了一种基于编码器 - 解码器神经网络的论证生成模型,通过从维基百科检索外部证据来生成不同方面的论证,实验结果表明,我们的模型建立的论证比流行的序列生成模型更具有话题相关内容。
May, 2018
本研究使用 ELMo 和 BERT 作为最新的上下文化词嵌入方法,在开放领域的论据搜索中进行了实验。我们首次展示了如何利用上下文化词嵌入的能力,对主题相关的论据进行分类和聚类,并在多个数据集和任务中取得了令人印象深刻的结果。
Jun, 2019
本文提出了一种利用大型机器翻译数据集预训练的上下文化词向量作为迁移学习的简单神经网络模型,用于判断给定句子集合中逻辑是否合理并证明它是否真实。实验结果表明,相比于其他基线和非迁移模型,仅使用基于机器翻译的 LSTM 模型可以获得大约 70%和 60% 的准确度。
May, 2018