基于 Fine-Tuning 的主张检测优化
本研究比较了经过调整的模型和极大语言模型在可检测可信度主张的任务中的性能。通过使用包含不同来源和风格的文本构建了一个多语种和多主题数据集,并基于此进行了基准分析,确定了最通用的多语种和多主题主张检测器。我们选择了三个最先进的模型进行了可检测可信度主张任务的调整,并选择了三个无需任何调整的最先进极大语言模型。通过对模型进行修改以适应多语种环境,并进行了广泛的实验和评估。在域内和跨域情景中,我们评估了所有模型的准确性、召回率和 F1 分数。我们的结果表明,尽管在自然语言处理领域取得了技术进步,但针对可检测可信度主张任务的调整模型在跨域设置中仍然优于零样本方法。
Nov, 2023
本研究提出了一种新的任务,即通过重新编写具有说服力的论证描述来优化其传递方式,并使用序列到序列模型和上下文信息生成了候选的最优论证描述来改善传递,该方法在英语语料库上的自动和人工评估中胜过了其他重新排序基线,并且能够很好地推广到其他文本领域。
Dec, 2022
本研究提出了一种基于自我指导的微调方法,通过数据增强和改进的 DPO 微调,实现了在保持准确性的同时,生成流畅的解释文本,并展示出高泛化性能。
May, 2024
本文探讨如何通过学习在线辩论中的协作编辑行为来捕捉修订模式,以开发旨在指导作者进一步改进其论点的方法,并且我们提出一种基于修订距离的新的抽样策略,以解决修订文字料库的噪声问题。
May, 2023
通过细分辩论领域、提取叙述模式以及使用大型语言模型生成支持性证据,可以提高叙述分类模型的效果,并且能够从少量训练样本中推断态度和角度。这种模型对依赖叙述的应用,如事实核实,具有实用价值。
Sep, 2023
通过使用基于大量医学数据预训练的大型语言模型(LLMs)和先进的推理技术,我们介绍了一种用于检测医学概念的断言的新方法,该方法在传统方法的基础上进一步优化,并在无结构的临床文本中取得了良好的性能。
Jan, 2024
本论文提出了一个新的多语言数据集 MultiClaim,其中包含 28k 个社交媒体帖子和 206k 个来自专业事实核查人员写的 39 种语言的事实核查。我们评估了不同的非监督方法在这个数据集上的效果,并显示对这样一个多样化的数据集进行评估具有复杂性,需要在解释结果之前采取适当的措施。我们还评估了一种监督微调方法,显著提高了非监督方法的性能。
May, 2023
本文提出了一个新的基准测试工具 NewsClaims,该工具包含了 889 个标注的声明,目的是为了测试在新闻领域中与声明相关的属性感知的声明检测系统,促进信息真实性和假消息检测技术的发展。
Dec, 2021
本文介绍了一种用于从生物医学领域的科学文章摘要中提取科学主张的模型,该模型使用传递学习技术进行微调,并将其与基于规则和深度学习技术的几个基准模型进行比较。最终模型使用微调后的传递学习技术与基准模型相比,其 F1 得分提高了 14 个百分点。同时,作者还提供了一个公共工具用于进行论述和主张的预测以及注释工具,并探讨了其在生物医学文献以外的其他应用。
Jul, 2019