多词语无监督释义

ACLJun, 2023

Unsupervised Paraphrasing of Multiword Expressions

PDF

Takashi Wada, Yuji Matsumoto, Timothy Baldwin, Jey Han Lau

TL;DR提出了一种用于无监督多词表达式改写的方法，通过使用单语料库和预训练语言模型（无需微调），不需要使用任何外部资源，例如词典，并在 SemEval 2022 成语语义文本相似度任务上表现优于所有无监督系统并与监督系统相媲美。

Abstract

We propose an unsupervised approach to paraphrasing multiword expressions (MWEs) in context. Our model employs only →

unsupervised approach paraphrasing multiword expressions monolingual corpus data semeval 2022

发现论文，激发创造

无监督多语言词向量

提出了一种全新的多语言词向量空间的无监督学习框架，该框架可以直接捕捉不同语言之间的交互关系，从而显著提高多语种单词转换和跨语种单词相似度的效果，并且比使用跨语种资源的监督式方法表现更好。

Aug, 2018

神经机器翻译中注意多词表达

探究了神经机器翻译 (NMT) 在英文 - 拉脱维亚语和英文 - 捷克语 NMT 系统中分配注意力和改善包含多词表达式 (MWE) 的句子的自动翻译，使用两种改进策略：自动提取的 MWE 候选句对和包含提取的 MWE 候选句的完整句子，两种方法均取得了良好的结果，其中第一种方法表现最佳，自动评估结果提高了 0.99 BLEU 点。同时还提供了用于 MWE 提取和对齐检查的开源软件和工具。

Oct, 2017

HiJoNLP 参加 SemEval-2022 任务 2: 使用多语言预训练语言模型检测多词表达的成语性

使用多语言预训练语言模型的上下文表示仅探测习语性的方法，实验发现模型规模越大在习语性探测上越有效。然而，使用较高的模型层不一定能够保证更好的性能。在多语言场景下，不同语言的融合不一致，资源丰富的语言比其他语言更具有优势。

May, 2022

侧抑制和领域适应在多语言多词表达式识别中的应用

为在多语境环境下准确识别多词表达式 (MWEs)，在所有第 1.2 版 PARSEME 语料库中可用的 14 种语言上对 mBERT 模型进行训练，并将侧向抑制和语言对抗性训练纳入方法中，以创建语言无关的嵌入并提高其识别多词表达式的能力，该方法在全球 MWE 识别中比 PARSEME 1.2 竞赛的最佳系统 MTLB-STRUCT 在 11 种语言中更好地实现，对于未见 MWE 识别中的 12 种语言，平均所有语言，我们的最佳方法在全球 MWE 识别上优于 MTLB-STRUCT 系统 1.23％，在未见全球 MWE 识别上优于 MTLB-STRUCT 系统 4.73％。

Jun, 2023

使用 BERT (s) 检测多词表达式

本文探索使用最先进的神经转换器来检测多词表达的任务，并在 SemEval-2016 Task 10 数据集中实验评估了几个 Transformer 模型，结果表明 Transformer 模型优于基于长短期记忆（LSTM）的以前的神经模型。

Aug, 2022

使用词义消歧解决多词表达识别的问题

本文中，我们使用 Bi-encoder 模型训练了一个过滤多词表达式候选人的模型，该模型使用锁定和上下文信息。我们在 DiMSUM 数据集上实现了最优结果，在 PARSEME 1.1 英语数据集上使用此方法获得了有竞争力的结果。同时，我们还尝试使用 Poly-encoder 模型对 MWE 进行识别和 WSD，并引入了一个修改的 Poly-encoder 结构，在这些任务上表现优于标准 Poly-encoder。

Mar, 2023

基于 Transformer 模型的多词表达语义研究：一项调查

通过对多词表达式的深入调查，我们发现 Transformer 模型在捕捉多词表达式的语义上存在不一致性，主要依赖表面模式和记忆信息，并且其表示在架构的早期层中主要存在。另外，我们强调了更直接可比较的评估设置的需求。

Jan, 2024

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021

AlphaMWE: 多语言 MWE 注释平行语料库的构建

本研究旨在构建带有多语言多词表达注释的多语言平行语料库，发现机器翻译系统在处理多词表达翻译时存在的误译类型，并总结出一些错误限制规则以提高翻译质量，此平行语料库可用于机器翻译和信息提取的跨语言和多语言的研究。

Nov, 2020

无监督的语句改写

该论文提出了一种从非标记的单语语料库中学习的重述模型，通过在重述识别，生成和训练增强方面与基于机器翻译的方法进行比较，发现单语重述在所有场景中均优于无监督翻译。

May, 2019