CASA:因果关系驱动的论据充分性评估
该研究使用了US2016辩论语料库来训练基于Transformer模型的种类,以推测不同参数下论据的关系,最终在五个不同领域中评价模型的性能,得出了极高的F1得分,并确定了相对不依赖特定领域的模型。
Nov, 2020
本论文提出了多种技术手段,包括对抗训练、语言模型和数据增强等,用于提高模型在因果推理领域的性能和鲁棒性,这些方法均能使模型在 COPA 数据集上有显著改进。
Jan, 2021
本研究探索了使用预训练语言模型进行论点充分性评估的潜力,并发现最佳模型变量的 F1 分数为 0.885,超过了之前的最佳表现并与人类专家相当,在手动评估中发现其生成结论的质量较高,但影响力最终仍然很小。
Oct, 2021
本研究提出了一种新的任务,即通过重新编写具有说服力的论证描述来优化其传递方式,并使用序列到序列模型和上下文信息生成了候选的最优论证描述来改善传递,该方法在英语语料库上的自动和人工评估中胜过了其他重新排序基线,并且能够很好地推广到其他文本领域。
Dec, 2022
通过创建一个新的自然语言处理任务,基于因果图和问题,研究大型语言模型在因果推理方面的能力,并提出一种特定的激励策略来评估和分析这种推理能力。
Dec, 2023
在这项研究中,我们首次提出了用于研究因果推理中的可恢复性的基准数据集delta-CAUSAL,并提出了一种名为CESAR的度量标准,该度量标准基于令牌级因果关系来衡量因果力量,并在捕捉支持者和驳斥者所带来的因果力量变化方面取得了显著的相对改进。
Jan, 2024
通过引入辩证推理方法,使用大语言模型(LLMs)构建论证框架,从而使LLMs的决策能够被自然地解释和争辩,通过在声称验证的决策任务中的实验,我们证明了辩论性LLMs的有效性,结果竞争力强于同类技术。
May, 2024
此文综述了大型语言模型(LLMs)中关于因果推理的基准测试,重点是最近的基准测试如何通过纳入干预或反事实推理来实现对因果推理的更全面定义,并提出了一个有用的基准测试或一组基准测试应该满足的一些标准,希望为评估LLMs中的因果理解和设计新的基准测试的框架铺平道路。
Jul, 2024
该研究解决了大型语言模型在生成逻辑上合理的论证时所面临的挑战,特别是对逻辑谬误的忽视。提出的FIPO框架通过偏好优化方法引导LLMs生成逻辑合理的论证,结果表明该方法能将谬误减少多达17.5%,显著提高了生成论证的质量。
Aug, 2024
本研究针对现有事实验证任务中的推理能力不足问题,提出了CheckWhy数据集,旨在通过严格的推理步骤验证声明中的因果关系。研究结果表明,纳入论证结构对于因果事实验证至关重要,且当前模型在生成有效论证结构方面仍存在较大改进空间。
Aug, 2024