利用多语言对抗训练和横向抑制来探测罗马尼亚多字表达
为在多语境环境下准确识别多词表达式 (MWEs),在所有第 1.2 版 PARSEME 语料库中可用的 14 种语言上对 mBERT 模型进行训练,并将侧向抑制和语言对抗性训练纳入方法中,以创建语言无关的嵌入并提高其识别多词表达式的能力,该方法在全球 MWE 识别中比 PARSEME 1.2 竞赛的最佳系统 MTLB-STRUCT 在 11 种语言中更好地实现,对于未见 MWE 识别中的 12 种语言,平均所有语言,我们的最佳方法在全球 MWE 识别上优于 MTLB-STRUCT 系统 1.23%,在未见全球 MWE 识别上优于 MTLB-STRUCT 系统 4.73%。
Jun, 2023
使用多语言预训练语言模型的上下文表示仅探测习语性的方法,实验发现模型规模越大在习语性探测上越有效。然而,使用较高的模型层不一定能够保证更好的性能。在多语言场景下,不同语言的融合不一致,资源丰富的语言比其他语言更具有优势。
May, 2022
该论文描述了一个半监督系统,该系统同时学习语言多词表达(VMWE)和依赖关系解析树作为辅助任务,并利用预训练的多语言 BERT。该系统已参加了 PARSEME 共享任务 2020 年的公开赛,排名第一,并在所有 14 种语言中平均识别未见过的 VMWE 以及 VMWE 的 F1 分数方面表现出色。
Nov, 2020
本文提出了一种多语言对抗训练模型,以判断一个句子是否包含习语表达。该模型利用不同多语言最先进的基于转换器的语言模型(即多语言 BERT 和 XLM-Roberta)的预训练上下文表示以及对抗性训练,提高模型的泛化能力和鲁棒性,在不依赖于人工创造的特征,知识库或除目标数据集以外的其他数据集的情况下,我们的模型取得了有竞争力的结果,在 SubTask A(零样本)设定中排名第 6 位,在 SubTask A(单样本)设定中排名第 15 位。
Jun, 2022
提出了一种用于无监督多词表达式改写的方法,通过使用单语料库和预训练语言模型(无需微调),不需要使用任何外部资源,例如词典,并在 SemEval 2022 成语语义文本相似度任务上表现优于所有无监督系统并与监督系统相媲美。
Jun, 2023
使用预训练的语言模型和整词遮罩技术,结合 CRF、BiLSTMs、线性分类器等多种神经网络架构, 在中文和西班牙语两种低资源语言的命名实体识别任务上超越基准,并在任务中表现最佳模型占据竞争性位置。
Jul, 2022
探究了神经机器翻译 (NMT) 在英文 - 拉脱维亚语和英文 - 捷克语 NMT 系统中分配注意力和改善包含多词表达式 (MWE) 的句子的自动翻译,使用两种改进策略:自动提取的 MWE 候选句对和包含提取的 MWE 候选句的完整句子,两种方法均取得了良好的结果,其中第一种方法表现最佳,自动评估结果提高了 0.99 BLEU 点。同时还提供了用于 MWE 提取和对齐检查的开源软件和工具。
Oct, 2017
本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案,主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签,该方案使用大型的跨语言模型(XLM-RoBERTa 大型模型)在所有输入数据上联合训练,而且针对已知语言和未知语言分别设置合理的置信度阈值,最终在 9 种语言中的 6 种语言上(包括两个未知语言)表现最优秀并取得了高度竞争的结果。
Apr, 2023
本文描述了我们为 SemEval-2023 任务 12 而设计的系统:对非洲语言进行情感分析。为了缓解低资源环境下标记数据和语言资源的短缺问题,我们提出了一个通用的多语言系统 SACL-XLMR,用于对低资源语言进行情感分析。我们的系统在多语言和零样本情感分类子任务中表现出色,并在零样本分类子任务中获得了官方排名的第一名。
Jun, 2023
通过在所有提供的 12 种语言数据集上微调 XLM-Roberta 基础模型,利用跨语言表示方法解决 NER 多语言复杂命名实体识别任务,达到 SemEval 2023 任务 2 的最佳表现。
May, 2023