声明的本质是什么?跨领域声明识别
该研究使用了 US2016 辩论语料库来训练基于 Transformer 模型的种类,以推测不同参数下论据的关系,最终在五个不同领域中评价模型的性能,得出了极高的 F1 得分,并确定了相对不依赖特定领域的模型。
Nov, 2020
通过将英文数据翻译并投影到目标语言(西班牙语)的方法,我们有效地生成了无需手动干预的带注释数据,并证明了其优于使用大型屏蔽多语言语言模型的零 - shot 跨语言方法。同时,我们还展示了西班牙语中自动生成的数据如何用于改善英语评估设置中的结果。
Jan, 2023
LESA framework proposes a generalized model for argument mining using syntactic and contextual features to segregate claims, resolving the issue of unavailability of labeled unstructured text by annotating a Twitter dataset and improving state-of-the-art performances on benchmark claim datasets.
Jan, 2021
本文研究基于 NLP 和大量文本数据得到的自动化 argument mining,评估 argument 质量估计对于不同领域的通用性、与相关 argument mining 任务的相互作用以及情感对于观察到的 argument 强度的影响。作者发现不同领域的训练数据可以提高质量估计的泛化能力,在零样本迁移和多任务实验中,argument quality 在多个方面都能够得到改善,而情感对 argument quality 的影响不如人们普遍认为的那样大。
May, 2022
本研究提出了一种新的任务,即通过重新编写具有说服力的论证描述来优化其传递方式,并使用序列到序列模型和上下文信息生成了候选的最优论证描述来改善传递,该方法在英语语料库上的自动和人工评估中胜过了其他重新排序基线,并且能够很好地推广到其他文本领域。
Dec, 2022
通过不同的策略进行政治要求分析的跨语言投射是一项重要工作,本文以德国数据集 DebateNet2.0 为基础,涵盖了 2015 年难民危机引发的政策辩论,通过两个任务(要求识别和分类)、三种语言(德语、英语和法语)以及两种方法(机器翻译 —— 实验中的最佳方法和多语言嵌入)进行了实验和评估。
Oct, 2023
我们提出了一个基于本体增强模型的句子级主张检测方法,通过将来自知识库的本体嵌入与 BERT 句子嵌入相融合,对 ClaimBuster 和 NewsClaims 数据集进行主张检测。我们的本体增强方法在这些小型非均衡数据集上展示出了最佳结果,相比其他统计和神经机器学习模型。实验表明,添加领域特定特征(训练词嵌入或知识图谱元数据)可以改善传统的机器学习方法。此外,以本体嵌入的形式添加领域知识有助于避免在神经网络模型中遇到的偏见,例如纯 BERT 模型在我们的小语料库中对较大类别的偏倚。
Feb, 2024
本文提出了一个全面而大型的数据集 IAM,旨在用于一系列论证挖掘任务。文集介绍了两个新的综合论证挖掘任务,即主张提取与立场分类(CESC)以及主张 - 证据对提取(CEPE)。实验结果表明了我们提出的任务的价值和挑战,并激励了论证挖掘领域的未来研究。
Mar, 2022
本文介绍了一种用于从生物医学领域的科学文章摘要中提取科学主张的模型,该模型使用传递学习技术进行微调,并将其与基于规则和深度学习技术的几个基准模型进行比较。最终模型使用微调后的传递学习技术与基准模型相比,其 F1 得分提高了 14 个百分点。同时,作者还提供了一个公共工具用于进行论述和主张的预测以及注释工具,并探讨了其在生物医学文献以外的其他应用。
Jul, 2019