大型语言模型(LLMs)的能力不断增长,但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解 LLMs 的说服能力,我们在 Durmus&Cardie(2018)的数据集上进行了研究,提出了衡量 LLMs 能力的任务,包括区分强弱论点、根据信念和人口特征预测立场、以及根据个人特征确定论点的吸引力。我们发现 LLMs 在这些任务中能与人类持平,并且合并不同 LLMs 的预测可以显著提高性能,甚至超过人类表现。本文发布的数据和代码为持续评估和监测快速发展的 LLMs 的潜在影响和能力做出了关键而持续的贡献。
Mar, 2024
本研究探讨了如何在产品评论中识别有用的评论,并验证了基于论证的特征,如论证句子的百分比和依据结论的比率等,对于确定较佳评论的重要性。实验表明,与基准特征相结合使用时,基于论证的特征可使性能提高 11.01%。
Jul, 2017
本研究使用四种基于逻辑和理论的机制 (实际一致性、情感一致性、因果关系和规范关系) 对两个陈述之间的论证关系进行分类,证明有效地利用这些逻辑机制能够显着提高无监督贝叶斯分类器的性能,并且使用表示学习进一步改进了有监督的分类器。
May, 2021
通过引入一个涵盖辩论中各项任务的论证挖掘数据集,我们评估了多种生成基准模型,并发现虽然它们在个别任务上表现出有希望的结果,但在全部任务上的整体性能明显下降,这对于我们提出的数据集提出了挑战,需要进一步研究端到端的论证挖掘和概括。
Jun, 2024
通过细分辩论领域、提取叙述模式以及使用大型语言模型生成支持性证据,可以提高叙述分类模型的效果,并且能够从少量训练样本中推断态度和角度。这种模型对依赖叙述的应用,如事实核实,具有实用价值。
Sep, 2023
本文提出了一个全面而大型的数据集 IAM,旨在用于一系列论证挖掘任务。文集介绍了两个新的综合论证挖掘任务,即主张提取与立场分类(CESC)以及主张 - 证据对提取(CEPE)。实验结果表明了我们提出的任务的价值和挑战,并激励了论证挖掘领域的未来研究。
Mar, 2022
该论文通过第一次全面调查话题覆盖范围,从三个权威来源比较话题集合,找出语料库与其频繁讨论的话题重合度最高,发现大多数语料库覆盖公共在线论坛上经常讨论的话题。但是,这些语料库还没有涵盖来自权威来源的其他话题,揭示了未来语料库建设的有趣方向。
Jan, 2023
探索使用多个粒度层次的法律论证挖掘,使用 Longformer 模型进行令牌级别的分类来更准确地识别法律论证的元素,并提供更大的灵活性来分析法律文本并获得更多有见地的信息。
Oct, 2022
本研究利用语言模型进行论点生成,实现针对特定话题、立场和方面的句子级别论点生成,定义论点方面检测作为必要方法,通过数据增强和生成反证来提高立场检测模型的性能。
Apr, 2020
该研究使用了 US2016 辩论语料库来训练基于 Transformer 模型的种类,以推测不同参数下论据的关系,最终在五个不同领域中评价模型的性能,得出了极高的 F1 得分,并确定了相对不依赖特定领域的模型。
Nov, 2020