检测美国手语中的未知多词表达
本文探索使用最先进的神经转换器来检测多词表达的任务, 并在 SemEval-2016 Task 10 数据集中实验评估了几个 Transformer 模型,结果表明 Transformer 模型优于基于长短期记忆(LSTM)的以前的神经模型。
Aug, 2022
探究了神经机器翻译 (NMT) 在英文 - 拉脱维亚语和英文 - 捷克语 NMT 系统中分配注意力和改善包含多词表达式 (MWE) 的句子的自动翻译,使用两种改进策略:自动提取的 MWE 候选句对和包含提取的 MWE 候选句的完整句子,两种方法均取得了良好的结果,其中第一种方法表现最佳,自动评估结果提高了 0.99 BLEU 点。同时还提供了用于 MWE 提取和对齐检查的开源软件和工具。
Oct, 2017
使用多种语言 Wikipedia 来为 100 多种语言训练单词嵌入表示,并将其应用在词性标注中取得了与英语、丹麦语和瑞典语接近最新成果的表现。此外,通过单词分组的距离等方式,进一步研究了这些嵌入所捕获的语义特征,并将这些嵌入公开以帮助多语言应用的开发和增强.
Jul, 2013
提出了一种用于无监督多词表达式改写的方法,通过使用单语料库和预训练语言模型(无需微调),不需要使用任何外部资源,例如词典,并在 SemEval 2022 成语语义文本相似度任务上表现优于所有无监督系统并与监督系统相媲美。
Jun, 2023
使用多语言预训练语言模型的上下文表示仅探测习语性的方法,实验发现模型规模越大在习语性探测上越有效。然而,使用较高的模型层不一定能够保证更好的性能。在多语言场景下,不同语言的融合不一致,资源丰富的语言比其他语言更具有优势。
May, 2022
本文提出了一种使用大型口语语言模型将定位与相应字幕对齐的方法,通过使用单一模态,我们的方法计算成本低廉且可与现有的对齐技术相结合,我们在 mdgs 和 bobsl 数据集上定量证明了我们的方法的有效性,词对齐得分可达到 33.22 BLEU-1 得分。
Aug, 2023
该研究探讨了使用最先进的神经转换器检测花卉和植物名称多词表达的任务,并在植物百科全书数据集上评估了不同的转换器模型,实证表明转换器模型优于基于 LSTM 的先前神经模型。
Sep, 2022
通过使用预训练的语言模型,我们可以提供上下文感知的句子嵌入来检测句子中的多词表达是否是惯用用法,从而更好地理解多词表达的惯用含义。
Apr, 2022
为在多语境环境下准确识别多词表达式 (MWEs),在所有第 1.2 版 PARSEME 语料库中可用的 14 种语言上对 mBERT 模型进行训练,并将侧向抑制和语言对抗性训练纳入方法中,以创建语言无关的嵌入并提高其识别多词表达式的能力,该方法在全球 MWE 识别中比 PARSEME 1.2 竞赛的最佳系统 MTLB-STRUCT 在 11 种语言中更好地实现,对于未见 MWE 识别中的 12 种语言,平均所有语言,我们的最佳方法在全球 MWE 识别上优于 MTLB-STRUCT 系统 1.23%,在未见全球 MWE 识别上优于 MTLB-STRUCT 系统 4.73%。
Jun, 2023
本文中,我们使用 Bi-encoder 模型训练了一个过滤多词表达式候选人的模型,该模型使用锁定和上下文信息。我们在 DiMSUM 数据集上实现了最优结果,在 PARSEME 1.1 英语数据集上使用此方法获得了有竞争力的结果。同时,我们还尝试使用 Poly-encoder 模型对 MWE 进行识别和 WSD,并引入了一个修改的 Poly-encoder 结构,在这些任务上表现优于标准 Poly-encoder。
Mar, 2023