低资源语言中的跨语言迁移学习应用于假新闻检测
本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法,该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器,可以在英语和西班牙语数据集上提高假新闻分类任务的性能。
May, 2022
本文介绍了一种利用已经被 fact-check 过的英文新闻数据集,通过建立一个名为 CrossFake 的深度学习框架来识别汉语低資源下的 COVID-19 虚假信息。经实验结果表明,CrossFake 在跨语言环境下的情况下比其他单语和跨语言虚假信息检测器更有效。
Oct, 2021
通过引入 FCTR 数据集,本研究通过跨语言转移学习评估大语言模型在土耳其语上的上下文学习(零样本和少样本)表现,结果表明该数据集有可能推动土耳其语研究的进展。
Mar, 2024
该研究提出了使用多语言证据的多元宇宙特征用于较好的矫正和预测假新闻,并进行了对真假新闻自动实验的对比研究,结果显示该特征与语言特征的结合可以显著地提高假新闻的分类准确率。
Nov, 2022
本文提出了一个可用于建立自动检测低资源语言(如孟加拉语)虚假新闻系统的标注数据集,同时提供了数据集分析和基准系统,采用传统语言特征和神经网络技术,为防止虚假信息传播建立技术贡献。
Apr, 2020
本文研究如何使用现有数据集训练 Twitter 消息的不同语言的验证价值模型。通过使用多语言 BERT 模型,我们系统地比较了六种方法。结果表明,对于一些语言对,零 - shot 跨语言转移是可能的,并且可以与在目标语言上训练的单语模型一样好。
Nov, 2022
通过研究名词实体识别任务的十种低资源语言之间的跨语言迁移学习,我们发现自适应微调和迁移语言的选择对零射击迁移性能有何影响,发现在个别语言性能和在其他语言上的概括之间存在权衡,同时源数据集和目标数据集之间的数据重叠程度是预测迁移性能的更好指标,而不是语言之间的地理或遗传距离。
Sep, 2023
本研究介绍了一种新的自动检测跨领域新闻中虚假消息的技术,该技术整合了领域特定和跨领域知识,并利用一种无监督的选择性注释技术来减少标注成本,并在跨领域的新闻数据集上实现了最先进的性能。
Feb, 2021
提出了两种基于深度学习的模型,用于在多个领域的在线新闻内容中解决虚假新闻检测问题,并在 FakeNews AMT 和 Celebrity 两个数据集上评估,取得了很好的性能并超过了当前最先进的基于手工特征工程的系统。同时,进行了跨领域分析以探索系统在不同领域的适用性。
May, 2020
为了解决低资源语言事实核查数据集的缺乏问题,我们提出了一种跨语言检索的事实核查框架,该框架利用我们提出的自监督算法,使用翻译的文章标题来创建训练实例,并在多种语言下实现证据的汇集。在 X-Fact 数据集上,我们的方法在零 - shot 跨语言设置下,在绝对 F1 上获得了 2.23% 的改进。
Sep, 2022