CASA：因果关系驱动的论据充分性评估

Jan, 2024

CASA：因果关系驱动的论据充分性评估

CASA: Causality-driven Argument Sufficiency Assessment

Xiao Liu, Yansong Feng, Kai-Wei Chang

TL;DR通过使用大型语言模型生成与前提和结论不一致的上下文，并通过注入前提事件对其进行修订，CASA能够准确识别不充分的论证，并在写作辅助应用中改善学生写作论证的充分性。

Abstract

The argument sufficiency assessment task aims to determine if the premises of a given argument support its conclusion. To tackle this task, existing works often train a classifier on data annotated by humans. However, annotating data is laborious, and annotations are often inconsistent

发现论文，激发创造

基于Transformer 的自动辨识论述关系模型：跨领域评估

该研究使用了US2016辩论语料库来训练基于Transformer模型的种类，以推测不同参数下论据的关系，最终在五个不同领域中评价模型的性能，得出了极高的F1得分，并确定了相对不依赖特定领域的模型。

Nov, 2020

通过对抗训练和数据增强改进常识因果推理

本论文提出了多种技术手段，包括对抗训练、语言模型和数据增强等，用于提高模型在因果推理领域的性能和鲁棒性，这些方法均能使模型在 COPA 数据集上有显著改进。

Jan, 2021

通过结论生成评估论证的充分性

本研究探索了使用预训练语言模型进行论点充分性评估的潜力，并发现最佳模型变量的 F1 分数为 0.885，超过了之前的最佳表现并与人类专家相当，在手动评估中发现其生成结论的质量较高，但影响力最终仍然很小。

Oct, 2021

计算论证中的主张优化

本研究提出了一种新的任务，即通过重新编写具有说服力的论证描述来优化其传递方式，并使用序列到序列模型和上下文信息生成了候选的最优论证描述来改善传递，该方法在英语语料库上的自动和人工评估中胜过了其他重新排序基线，并且能够很好地推广到其他文本领域。

Dec, 2022

CLadder:评估语言模型因果推理能力的基准

通过创建一个新的自然语言处理任务，基于因果图和问题，研究大型语言模型在因果推理方面的能力，并提出一种特定的激励策略来评估和分析这种推理能力。

Dec, 2023

δ-因果关系: 探索因果推理中的随意性

在这项研究中，我们首次提出了用于研究因果推理中的可恢复性的基准数据集delta-CAUSAL，并提出了一种名为CESAR的度量标准，该度量标准基于令牌级因果关系来衡量因果力量，并在捕捉支持者和驳斥者所带来的因果力量变化方面取得了显著的相对改进。

Jan, 2024

用于可解释和可争议决策的论证型大型语言模型

通过引入辩证推理方法，使用大语言模型（LLMs）构建论证框架，从而使LLMs的决策能够被自然地解释和争辩，通过在声称验证的决策任务中的实验，我们证明了辩论性LLMs的有效性，结果竞争力强于同类技术。

May, 2024

大型语言模型因果推理基准的关键评论

此文综述了大型语言模型（LLMs）中关于因果推理的基准测试，重点是最近的基准测试如何通过纳入干预或反事实推理来实现对因果推理的更全面定义，并提出了一个有用的基准测试或一组基准测试应该满足的一些标准，希望为评估LLMs中的因果理解和设计新的基准测试的框架铺平道路。

Jul, 2024

基于逻辑谬误的论证生成框架

该研究解决了大型语言模型在生成逻辑上合理的论证时所面临的挑战，特别是对逻辑谬误的忽视。提出的FIPO框架通过偏好优化方法引导LLMs生成逻辑合理的论证，结果表明该方法能将谬误减少多达17.5%，显著提高了生成论证的质量。

Aug, 2024

CHECKWHY：通过论证结构进行因果事实验证

本研究针对现有事实验证任务中的推理能力不足问题，提出了CheckWhy数据集，旨在通过严格的推理步骤验证声明中的因果关系。研究结果表明，纳入论证结构对于因果事实验证至关重要，且当前模型在生成有效论证结构方面仍存在较大改进空间。

Aug, 2024