跨语言转移学习在推特上识别值得检查的声明
本文研究了使用 transformer 模型(BERT-m 和 XLM-RoBERTa-base)对社交媒体中存在的误导性信息进行事实核查的方法,实验结果表明,在荷兰语和英语中,transformer 模型优于 SVM 和 RF 模型,但在西班牙语中,情况则不同。
Jul, 2022
本研究使用多语言变换器模型和嵌入技术(如 XLM-RoBERTa、LaBSE 和 SBERT 等)自动寻找社交媒体帖子(推文)中已经被事实检查过的主张。在不同语言设置中,我们进行了分类和检索实验,并取得了令人满意的结果。我们也发现处理不同语言时存在一些 NLP 挑战,并为未来的研究提供了一个新的事实检查和相应推文的数据集。
Feb, 2022
本研究比较了经过调整的模型和极大语言模型在可检测可信度主张的任务中的性能。通过使用包含不同来源和风格的文本构建了一个多语种和多主题数据集,并基于此进行了基准分析,确定了最通用的多语种和多主题主张检测器。我们选择了三个最先进的模型进行了可检测可信度主张任务的调整,并选择了三个无需任何调整的最先进极大语言模型。通过对模型进行修改以适应多语种环境,并进行了广泛的实验和评估。在域内和跨域情景中,我们评估了所有模型的准确性、召回率和 F1 分数。我们的结果表明,尽管在自然语言处理领域取得了技术进步,但针对可检测可信度主张任务的调整模型在跨域设置中仍然优于零样本方法。
Nov, 2023
本研究提出了一种零样本跨语言迁移学习框架,利用预训练的多语言语言模型和自我训练循环来逐步引导目标语言中 ' 银标签 ' 的创建,从而将已训练好的谣言检测模型从源语言适应到另一种目标语言。在英语和汉语谣言数据集上进行评估,证明了该模型在源语言和目标语言的谣言检测方面均明显优于竞争基准。
Sep, 2021
本研究提出使用跨语言训练适配器并进行组合来检测全球多种语言中出现的声明,从而更节省成本和提高效率,并在基准测试任务中超越了其他多语言方法。
Jan, 2023
为了解决低资源语言事实核查数据集的缺乏问题,我们提出了一种跨语言检索的事实核查框架,该框架利用我们提出的自监督算法,使用翻译的文章标题来创建训练实例,并在多种语言下实现证据的汇集。在 X-Fact 数据集上,我们的方法在零 - shot 跨语言设置下,在绝对 F1 上获得了 2.23% 的改进。
Sep, 2022
通过引入 FCTR 数据集,本研究通过跨语言转移学习评估大语言模型在土耳其语上的上下文学习(零样本和少样本)表现,结果表明该数据集有可能推动土耳其语研究的进展。
Mar, 2024
本论文提出了一个新的多语言数据集 MultiClaim,其中包含 28k 个社交媒体帖子和 206k 个来自专业事实核查人员写的 39 种语言的事实核查。我们评估了不同的非监督方法在这个数据集上的效果,并显示对这样一个多样化的数据集进行评估具有复杂性,需要在解释结果之前采取适当的措施。我们还评估了一种监督微调方法,显著提高了非监督方法的性能。
May, 2023
自动事实核查引起了过去几十年的广泛关注, 由于在线平台上虚假信息的扩散增加。本调查主要关注多语言数据和方法,讨论现有努力检测需求核查的言论。我们提出了一项综合调查,介绍了最新的多语言言论检测研究,主要涉及可验证性,优先级和相似性三个问题因素。此外,我们详细概述了现有的多语言数据集,以及存在的挑战,并提出可能的未来发展方向。
Jan, 2024