跨语言学习与低资源微调的案例研究:以土耳其事实核查为例
为了解决低资源语言事实核查数据集的缺乏问题,我们提出了一种跨语言检索的事实核查框架,该框架利用我们提出的自监督算法,使用翻译的文章标题来创建训练实例,并在多种语言下实现证据的汇集。在 X-Fact 数据集上,我们的方法在零-shot跨语言设置下,在绝对 F1 上获得了 2.23% 的改进。
Sep, 2022
本文研究如何使用现有数据集训练Twitter消息的不同语言的验证价值模型。通过使用多语言BERT模型,我们系统地比较了六种方法。结果表明,对于一些语言对,零-shot跨语言转移是可能的,并且可以与在目标语言上训练的单语模型一样好。
Nov, 2022
通过创建新数据集、使用跨语言查询和提出多阶段框架,本文在横跨不同领域和零-shot学习中实现了已证伪叙述的跨语言检索任务。结果表明,这是一项具有挑战性的任务,但多阶段检索框架表现出鲁棒性,在大多数情况下胜过了BM25基线,并且在不显著损害模型性能的情况下进行了跨领域和零-shot学习。
Aug, 2023
比较两种基于适配器方法和参数微调的跨语言迁移策略,评估其在少资源语言中的性能和跨语言知识遗忘情况,并发现中间训练策略在目标语言上表现优于跨语言验证策略。
Sep, 2023
通过实验证明多语言模型具有零-shot 跨语言知识转移的能力并且在下游任务中表现出较高性能,但我们对当前评估基准和设置是否能准确衡量零-shot 跨语言知识转移产生了质疑。本研究通过引入更具挑战性的多语言实例设置,表明多语言模型的高性能在很大程度上归因于不需要传递实际语言知识的因素,如任务和表面层知识。我们观察到跨语言传递的主要是数据工件和偏见,尤其是对于资源有限的语言。我们的发现凸显了现有跨语言测试数据和评估设置的缺点,呼吁对多语言模型的跨语言能力有更细致的理解。
Feb, 2024
本研究目的是填补文献中关于土耳其语的各种开源语言模型的性能比较的空白,通过比较七个选择的语言模型在上下文学习和问答能力方面的表现,发现继续在 fine-tuning 之前进行预训练的指导数据集可以更好地适应土耳其语的多语种模型,并且上下文学习的表现与问答的表现关系不大。
Apr, 2024
通过研究低资源语言,对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析,以进一步推进低资源语境下大型语言模型 (LLMs) 的发展,使自然语言处理 (NLP) 的益处更广泛可及。
May, 2024
本研究针对数字虚假信息的传播现象,探讨了多语言大型语言模型在跨语言主张验证中的翻译偏差与准确性问题。通过比较预翻译和自我翻译两种方法,研究发现低资源语言的准确性较低,然而更大的模型在自我翻译中的表现更佳,从而提升了翻译的准确性并减少偏差,强调了在低资源语言中均衡多语种训练的重要性。
Oct, 2024
本研究解决了低资源语言虚假信息检测领域中存在的研究空白。通过对单语和多语环境中现有研究的综述,本文提出了数据资源、模型开发以及文化和语言背景等关键挑战的分析,发现了需要改进的数据收集实践和跨学科合作的重要性。研究表明,需建立强大的包容性系统,以应对不同语言和文化背景的虚假信息问题。
Oct, 2024