侧抑制和领域适应在多语言多词表达式识别中的应用

Jun, 2023

侧抑制和领域适应在多语言多词表达式识别中的应用

Multilingual Multiword Expression Identification Using Lateral Inhibition and Domain Adaptation

Andrei-Marius Avram, Verginica Barbu Mititelu, Vasile Păiş, Dumitru-Clementin Cercel, Ştefan Trăuşan-Matu

TL;DR为在多语境环境下准确识别多词表达式 (MWEs)，在所有第 1.2 版 PARSEME 语料库中可用的 14 种语言上对 mBERT 模型进行训练，并将侧向抑制和语言对抗性训练纳入方法中，以创建语言无关的嵌入并提高其识别多词表达式的能力，该方法在全球 MWE 识别中比 PARSEME 1.2 竞赛的最佳系统 MTLB-STRUCT 在 11 种语言中更好地实现，对于未见 MWE 识别中的 12 种语言，平均所有语言，我们的最佳方法在全球 MWE 识别上优于 MTLB-STRUCT 系统 1.23％，在未见全球 MWE 识别上优于 MTLB-STRUCT 系统 4.73％。

Abstract

Correctly identifying multiword expressions (mwes) is an important task for most natural language processing systems since their misidenti

multiword expressions mwes natural language processing mbert model multilingual context

发现论文，激发创造

利用多语言对抗训练和横向抑制来探测罗马尼亚多字表达

该研究介绍了基于侧向抑制层和对抗训练的多语言模型方法，自动识别罗马尼亚语多词表达式，提高了性能并取得了先进的 SOTA 表现。

Apr, 2023

神经机器翻译中注意多词表达

探究了神经机器翻译 (NMT) 在英文 - 拉脱维亚语和英文 - 捷克语 NMT 系统中分配注意力和改善包含多词表达式 (MWE) 的句子的自动翻译，使用两种改进策略：自动提取的 MWE 候选句对和包含提取的 MWE 候选句的完整句子，两种方法均取得了良好的结果，其中第一种方法表现最佳，自动评估结果提高了 0.99 BLEU 点。同时还提供了用于 MWE 提取和对齐检查的开源软件和工具。

Oct, 2017

多词语无监督释义

提出了一种用于无监督多词表达式改写的方法，通过使用单语料库和预训练语言模型（无需微调），不需要使用任何外部资源，例如词典，并在 SemEval 2022 成语语义文本相似度任务上表现优于所有无监督系统并与监督系统相媲美。

Jun, 2023

HiJoNLP 参加 SemEval-2022 任务 2: 使用多语言预训练语言模型检测多词表达的成语性

使用多语言预训练语言模型的上下文表示仅探测习语性的方法，实验发现模型规模越大在习语性探测上越有效。然而，使用较高的模型层不一定能够保证更好的性能。在多语言场景下，不同语言的融合不一致，资源丰富的语言比其他语言更具有优势。

May, 2022

使用 BERT (s) 检测多词表达式

本文探索使用最先进的神经转换器来检测多词表达的任务，并在 SemEval-2016 Task 10 数据集中实验评估了几个 Transformer 模型，结果表明 Transformer 模型优于基于长短期记忆（LSTM）的以前的神经模型。

Aug, 2022

MTLB-STRUCT @PARSEME 2020：使用多任务学习和预训练掩码语言模型捕获未见到的多词表达式

该论文描述了一个半监督系统，该系统同时学习语言多词表达（VMWE）和依赖关系解析树作为辅助任务，并利用预训练的多语言 BERT。该系统已参加了 PARSEME 共享任务 2020 年的公开赛，排名第一，并在所有 14 种语言中平均识别未见过的 VMWE 以及 VMWE 的 F1 分数方面表现出色。

Nov, 2020

习惯用语检测的高效样本方法

本篇研究旨在探究识别成语化多词表达的高效方法，通过 Pattern Exploit Training 和 BERTRAM 两种少样本分类方法，以及探索不在训练数据中的多词表达的识别，提高英语的表现，但对葡萄牙语和加利西亚语的效果较差。

May, 2022

AlphaMWE: 多语言 MWE 注释平行语料库的构建

本研究旨在构建带有多语言多词表达注释的多语言平行语料库，发现机器翻译系统在处理多词表达翻译时存在的误译类型，并总结出一些错误限制规则以提高翻译质量，此平行语料库可用于机器翻译和信息提取的跨语言和多语言的研究。

Nov, 2020

使用词义消歧解决多词表达识别的问题

本文中，我们使用 Bi-encoder 模型训练了一个过滤多词表达式候选人的模型，该模型使用锁定和上下文信息。我们在 DiMSUM 数据集上实现了最优结果，在 PARSEME 1.1 英语数据集上使用此方法获得了有竞争力的结果。同时，我们还尝试使用 Poly-encoder 模型对 MWE 进行识别和 WSD，并引入了一个修改的 Poly-encoder 结构，在这些任务上表现优于标准 Poly-encoder。

Mar, 2023

缩小鸿沟：关注多词表达中的不连续性识别

本研究介绍了一种新的标记多词表达式的方法，利用了一种具有语言独立性和语言学可解释性的深度学习架构，特别针对了计算处理多词表达式中不连续性这一尚未充分开发的领域。本文提出了两种神经网络结构：图形卷积网络（GCN）和多头自注意力，通过门控机制将两者的互补信息结合在一起，并在标准多语言动词 MWE 数据集上进行实验，结果表明我们的模型不仅在不连续的 MWE 情况下表现更好，同时在整体 F-score 上也表现优异。

Feb, 2019