你站在哪一边？一项用于端对端论点摘要和评估的多任务数据集

ACLJun, 2024

你站在哪一边？一项用于端对端论点摘要和评估的多任务数据集

Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation

Hao Li, Yuping Wu, Viktor Schlegel, Riza Batista-Navarro, Tharindu Madusanka...

TL;DR通过引入一个涵盖辩论中各项任务的论证挖掘数据集，我们评估了多种生成基准模型，并发现虽然它们在个别任务上表现出有希望的结果，但在全部任务上的整体性能明显下降，这对于我们提出的数据集提出了挑战，需要进一步研究端到端的论证挖掘和概括。

Abstract

With the recent advances of large language models (LLMs), it is no longer infeasible to build an automated debate system that helps people to synthesise persuasive arguments. Previous work attempted this task by integrating multiple components. In our work, we introduce an

automated debate system argument mining dataset end-to-end argument mining generative baselines summarisation

发现论文，激发创造

IAM：一份全面的大规模数据集，用于集成化论证挖掘任务

本文提出了一个全面而大型的数据集 IAM，旨在用于一系列论证挖掘任务。文集介绍了两个新的综合论证挖掘任务，即主张提取与立场分类（CESC）以及主张 - 证据对提取（CEPE）。实验结果表明了我们提出的任务的价值和挑战，并激励了论证挖掘领域的未来研究。

Mar, 2022

OpenDebateEvidence：大规模论据挖掘与摘要数据集

我们介绍了 OpenDebateEvidence，这是一个从美国竞争辩论社区收集的全面的论点挖掘和总结数据集。该数据集包括超过 350 万个具有丰富元数据的文档，是最大的辩论证据集之一。OpenDebateEvidence 捕捉了高中和大学辩论中论点的复杂性，为训练和评估提供了宝贵的资源。我们的大量实验证明了对最新大型语言模型进行微调以进行论辩抽象总结的有效性，涵盖了各种方法、模型和数据集。通过提供这一全面的资源，我们旨在推动计算论证的发展，并支持辩论者、教育工作者和研究人员的实际应用。OpenDebateEvidence 已公开可用，以支持计算论证的进一步研究和创新。在此访问：this https URL

Jun, 2024

DebateSum：一个大规模的辩论挖掘和摘要数据集

该研究提出了 DebateSum 数据集，其中包含 187,386 个唯一的证据片段和相应的争论和抽取式摘要，使用多个 Transformer 摘要模型进行了训练，同时引入了在数据集上训练的 FastText 词向量 debate2vec。最后，该研究还提出了一个可以广泛运用于全国演讲和辩论协会成员中的 DebateSum 搜索引擎。

Nov, 2020

多任务学习提高深度论证挖掘模型性能

该研究使用多任务学习方法将不同的论证挖掘任务相结合，利用语义和逻辑结构的相似性来提高性能，从而揭示了论证挖掘任务之间的共性，为文本中论证技巧的提取提供了整体方法。

Jul, 2023

论样本量和话题规模对于论证挖掘数据集的影响

本文研究如何在小数据集情况下，使论点挖掘的性能达到最佳表现，并发布了一个新的用于未来基准测试的数据集。

May, 2022

多语言论点挖掘：数据集和分析

本研究探索了利用多语言 BERT 模型进行传输学习，以识别非英语语言中的论证挖掘任务。结果表明，机器翻译的质量对于论点立场和证据检测任务而言很好，但对于论证质量评估任务来说则不太适合。研究还展示了语言选择和它们之间的关系对结果模型的准确性产生了影响，并提供了一个多语言的人工数据集，以方便进行传输学习的效果评估。

Oct, 2020

自动论证质量评估 -- 新数据集和方法

探索自动评估论点质量的任务，通过对 6.3k 个论点进行精细注释，以及 14k 个论点对的高品质论点独立标注，提出基于最近发布的语言模型的神经方法进行论点排序和论点对分类，产生与最先进技术相媲美的结果。

Sep, 2019

端到端多模态事实核查与解释生成：一组具有挑战性的数据集和模型

我们提出了一种端到端的多模态事实核查和解释生成方法，利用包括文章、图片、视频以及推特在内的大量网络资源来评估索赔的真实性，并生成一个有理化陈述来解释推理和裁定过程。我们构建了 Mocheg，这是一个大规模数据集，包括 21,184 个索赔和 58,523 条文本和图像形式的证据。我们在多模态证据检索、索赔验证和解释生成三个子任务上进行了几种最先进的神经网络结构的实验，以建立基准性能，并展示端到端多模态事实核查的最新性能仍然远远不够令人满意。据我们所知，我们是第一个建立端到端多模态事实核查和证明基准数据集和解决方案的研究团队。

May, 2022

一个大规模的争论质量排名数据集：建立与分析

本研究探索了论证质量排序的挑战性任务，构建了一个被精心注释的语料库来解决这个问题，并进行了综合评估，最后提出了一种神经方法来解决此问题。

Nov, 2019

USB：跨任务和领域的统一摘要基准

本研究提出一个多维理解摘要的基准测试，并在其上比较了多种模型的性能，发现中等规模的微调模型在多个任务上始终优于更大的几次提示语言模型。同时发现，对于某些任务，训练数据的数量比其来源领域更重要，而对于其他任务，尽管数据量有限，但特定领域的数据更为有益。

May, 2023