跨语言事件抽取的语言模型预训练
本文介绍利用多语言预训练生成式语言模型进行零 - shot 的跨语言事件论元提取的研究。通过将 EAE 视为语言生成任务,论文提出的方法能够有效编码事件结构并捕获论元之间的依赖关系,提出了语言无关的模板以表示事件论元结构,从而适用于任何语言,最终在源语言训练模型,并直接应用于目标语言以实现事件论元提取。实验表明,所提出的模型在零 - shot 跨语言 EAE 方面优于当前最先进的模型,论文对它的优势和现有限制进行了全面的研究和误差分析。
Mar, 2022
研究现代神经语言模型在结构启动方面的易感性,探讨如何利用启动来研究这些模型学习抽象结构信息的潜力,引入新度量和发布大型语料库 Prime-LM,发现 Transformer 模型确实显示结构启动的证据,但也显示出它们学习的概括在某种程度上受语义信息的调节,综合实验表明,模型获得的表示不仅编码抽象的连续结构,还涉及某些层次的句法信息。
Sep, 2021
多语言语言模型是否在不同语言之间共享抽象语法表示以及这些抽象语法表示是何时形成的?我们使用结构启动测试进行研究,发现跨语言结构启动效应在第二语言曝光不到 1M 标记的数据后就会早期显现,并讨论了数据污染、低资源转移以及多语言模型中抽象语法表示形成的意义。
Oct, 2023
通过评估循环神经网络(RNN)和 Transformer 在复制跨语言结构启动方面的表现,这项研究对人类语言处理中抽象语法表示的关键指标进行了评估。研究重点关注涉及两种类型不同的语言的中英启动,探讨这些模型如何处理结构启动这一稳定现象,即暴露于特定句子结构会增加之后选择类似结构的可能性。此外,我们还利用大型语言模型(LLM)来衡量跨语言结构启动效果。研究结果表明 Transformer 在生成启动句子结构方面的性能优于 RNN,挑战了人类句子处理主要涉及循环和即时处理的传统观念,同时表明了基于线索的检索机制的作用。总体而言,这项工作对于了解计算模型如何反映多语言环境中人类认知过程具有重要贡献。
May, 2024
通过使用 Tagging 模型,对预先训练好的语言模型的输入序列增加预处理,从而提高关联结构提取的精度,并在多语言数据集上进行了广泛的实验及分析,并提出了一种快速且准确的近似方法
May, 2022
跨语言转移学习对事件抽取研究中,源语言和目标语言的类型学相似度是否影响转移性能进行了探讨,并发现源语言与目标语言之间的共享语言特征对转移质量产生影响。该研究还介绍了一种 Basque 的事件抽取数据集 EusIE,供公众使用。
Apr, 2024
本文对于使用不同语言进行零样本跨语言转移的多语言模型进行了研究,发现高资源语言如德语和俄语在多数情况下能够更加有效地进行迁移学习,即使训练集是自动从英语翻译而来。同时,该结论对于多语言零样本系统有着重要影响,并且应该指导未来的基准设计。
Jun, 2021
本论文展示了在辅助支点语言中提供少量注释数据可以更好地选择用于零 - shot 跨语言迁移的 fine-tuned models,并提出一种基于机器学习的方法用于模型选择,该方法使用 fine-tuned 模型的内部表示来预测其跨语言能力。在广泛的实验中,我们发现这种方法比使用英文验证数据一直可以跨越二十五种语言(包括八种低资源语言)选择更好的模型,并且通常可以达到使用目标语言开发数据进行模型选择的结果
Oct, 2020
我们研究了语言模型预测中在句子和单词级别发挥重要作用的语言因素,并调查这些因素是否反映了人类和人类语料库中的结果。我们利用结构启动范式,其中对结构的最近暴露有助于相同结构的处理。我们不仅调查了引导效果是否发生,还调查了它们发生的位置以及预测它们的因素。我们表明,这些效应可以通过逆频率效应来解释,即在人类引导中众所周知,引导中的较罕见元素增加引导效果,以及引导和目标之间的词汇依赖性。我们的结果为如何理解上下文中的属性如何影响语言模型中的结构预测提供了重要线索。
Jun, 2024